Cálculo de la Significancia Estadística y Tutorial

Las empresas de hoy en día realizan multitud de test y generan una gran cantidad de datos, pero al mismo tiempo deben demostrar la validez de sus resultados. Mixpanel le muestra la significancia estadística de sus resultados, de manera que pueda saber si debe actuar o no sobre los datos.

El hecho de no saber si los datos son válidos hace que sean directamente inútiles. Y lo que es peor: Esto inspira a los equipos a pensar que se están rigiendo por datos cuando realmente no es así. Es menos probable que los equipos equivocados se verifiquen a sí mismos y al mismo tiempo más probable que sólo descubran los errores después de haberlos cometido.

¿Que impide a los equipos comprobar la significancia estadística de sus resultados? Para empezar, el método en sí mismo podría ayudarse del marketing. La definición oficial es “un resultado que es improbable que haya ocurrido dada una hipótesis nula”, y se encuentra típicamente junto a fascinantes descripciones de “pruebas paramétricas” en clásicos como Statistical Methods for Research Workers de 1925.

Para aquellos equipos que no tienen tiempo de volver a la escuela para obtener otro título, aquí tenemos una versión en lenguaje sencillo y una guía.

¿Qué es un test de significancia estadística?

Un test de significancia estadística mide si es probable que los resultados de la muestra sean aplicables al conjunto de la población. Los equipos pueden usarla para determinar si deben confiar en los resultados de un test A/B. Por ejemplo, si ellos conocen que al 20 por ciento de su base de suscriptores les encantaba un correo electrónico, pueden verificar que el resultado fue significativo antes de enviar el correo al conjunto de la lista.

Las empresas de hoy en día realizan multitud de test y generan una gran cantidad de datos, pero al mismo tiempo deben demostrar la validez de sus resultados. Sin la presunción de validez los números son peligrosamente fungibles. O como dijo Mark Twain: “Hay mentiras, hay malditas mentiras, y luego hay estadísticas”.

Cualquier equipo que quiera ver algún ejemplo de estadísticas cuestionables sólo necesita realizar una búsqueda en Google sobre “las mejores líneas de asunto para correo electrónico”. Encontrarán páginas con estudios definitivos, aunque ninguno de ellos explica su metodología, cita datos demográficos (típicamente clientes de una sola compañía), o calcula su propia significancia estadística. No es posible confiar en ellos.

Cualquier equipo que realice test A/B debe hacerlo para su propia audiencia, y debe confirmar que cualquier relación que descubra es válida. Por ejemplo, si un titular en particular realmente influye en los ratios de apertura del correo electrónico, o si el color del botón de llamada a la acción (CTA) realmente aumenta los clicks.

Errores básicos y cómo evitarlos

Los test son importantes ya que cada vez que los equipos ponen a prueba una muestra de una población más grande, siempre existe una pequeña probabilidad de que la prueba únicamente incluya, digamos a los fanáticos del color naranja, mientras que los gustos de una población más amplia se parecería más a un arcoiris. Si el resultado de un test es estadísticamente significativo, significa que la probabilidad de que la muestra sólo incluya a amantes del color naranja es menor que un umbral predeterminado – casi siempre un cinco por ciento-, es decir, las probabilidades son extremadamente bajas y el resultado probablemente será válido. (Si los equipos realizan un test en la población completa, no hay necesidad de probar la significancia estadística).

Existe una gran variedad de sesgos a tener en cuenta cuando se evalúa una prueba estadística. Durante la Segunda Guerra Mundial, el estadístico Abraham Wald tenía algo parecido al gráfico de abajo, que mostraba dónde habían sido alcanzados los aviones que regresaban de la batalla, y tenía que determinar dónde las aeronaves debían recibir un mayor blindaje.

¿Qué hacer? La respuesta aparentemente lógica -colocar más blindaje en los lugares donde los aviones han sido alcanzados- es, de hecho, la equivocada. ¿Por qué? Sencillamente porque estos eran los aviones que estaban regresando. La parte oculta de la población, los aviones que no regresaban, eran precisamente los que fueron alcanzados en puntos que no aparecían marcados en el gráfico anterior. Este efecto es conocido como sesgo de supervivencia, y es uno de los muchos sesgos estadísticos que se deben considerar al evaluar tanto el diseño como los resultados de un experimento. Considere qué factores están afectando a una muestra determinada de manera que la hagan menos representativa de todo el conjunto de la población: ¿Está abrumadoramente sesgada hacia una determinada región geográfica? ¿El experimento se ve afectado por el mero hecho de que los participantes en el experimento son conscientes de que el experimento se está llevando a cabo? Las respuestas a este tipo de preguntas deberán orientarnos para evaluar los resultados.

¿Cómo calcular la significancia estadística?

La forma más común de probar la significancia estadística es la distribución chi-cuadrado de Pearson, llamada así porque fue inventada por alguien llamado Pearson, “Chi” es “X” en griego, y la prueba pide a los usuarios el cuadrado de sus datos para así acentuar las diferencias.

Las pruebas chi-cuadrado se utilizan para conjuntos de datos discretos, o datos que sólo encajan en números enteros y que no son medidos en un espectro. Por ejemplo, las conversiones en marketing, en las que los visitantes o bien convierten o bien no convierten -son un uno o un dos- pero nunca un valor intermedio.

Un test se considera estadísticamente significativo si hay una probabilidad muy reducida de que el resultado pueda haber ocurrido por casualidad. Es decir, si la probabilidad (p) es inferior a un umbral que el equipo selecciona de antemano (ɑ) también llamado alfa.

Significancia estadística = Probabilidad (p) < Umbral (ɑ)

Hay seis pasos para realizar un test A/B y luego aplicar la prueba de chi-cuadrado

Paso 1: Establecer una hipótesis nula

Los equipos primero establecen una hipótesis nula para su test A/B. La idea de una hipótesis nula es que no mostrará resultados significativos. Por lo que la hipótesis nula podría ser algo así como “La evidencia no sugiere que los prospectos prefieran nuestra vieja landing page a la nueva”. La hipótesis nula será refutada o no refutada. No es una declaración afirmativa.

Paso 2: Establecer una hipótesis alternativa

Los equipos plantean una hipótesis que esperan demostrar. Por ejemplo, “Los clientes prefieren nuestra nueva landing page”.

Paso 3: Establecer un umbral

Los equipos determinan un umbral porcentual por debajo del cual la hipótesis será considerada válida, conocido como ɑ (la letra griega alfa). Cuanto más bajo sea ɑ, más riguroso será el test. Un umbral del cinco por ciento es muy estricto. Otra forma de pensar en esto es que si los resultados del test parecen ser estadísticamente válidos, sólo hay una posibilidad entre 20 de que el resultado sea erróneo. Un umbral de error más alto podría ser más adecuado para test en empresas, sin embargo es imperativo elegir el umbral antes del experimento para evitar que el resultado deseado se convierta en un determinante de lo que se considera significativo o no.

Paso 4: Realizar el test

Los equipos realizan sus test A/B. Por ejemplo prueban una nueva modificación de una landing page contra la versión anterior, y registran los resultados. A continuación se muestran los resultados del muestreo, en los que la nueva landing page A ha superado a la vieja landing page B, lo que demuestra que la hipótesis alternativa es correcta.

Para recrear el cuadro de abajo, los equipos registran los resultados de sus test sobre la landing page, y añaden los resultados a través de filas y columnas.

RESULTADOS OBSERVADOS

¿Convierte?

Landing Page A

Landing Page B

TOTAL

No

7.611

7.850

15.461

Si

2.345

1.999

4.344

TOTAL

9.956

9.849

19.805

 

Paso 5: Realizar el test chi-cuadrado

El test chi-cuadrado compara los resultados observados en el test A/B con los resultados esperados, o los números que el equipo podría haber esperado ver si no hubiera diferencias entre las dos landing pages. En este ejemplo, la tasa de conversión total esperada es de un 22 por ciento, es decir, el total de conversiones para ambas landing pages (4.344) dividido por el total de visitas para ambas páginas (19.805).

Los equipos luego reemplazan los números observados (marcados en verde) con los números esperados. Para calcular cada valor esperado, los equipos multiplican la columna total por la fila total y lo dividen por el total de visitantes.

Esperado = (columna total * fila total) / Visitantes totales

Esperado = (9.956 * 15.461) / 19.805 = 7.772

Se repite el calculo para cada una de las cuatro casillas. La tabla resultante es una vista de los números que el equipo habría registrado si ambas landing pages fueran idénticas. Todos los totales siguen siendo los mismos.

RESULTADOS ESPERADOS

¿Convierte?

Landing Page A

Landing Page B

TOTAL

No

7.772

7.689

15.461

Si

2.184

2.160

4.344

TOTAL

9.956

9.849

19.805

 

El equipo a continuación utiliza el método de chi-cuadrado para comparar si los resultados observados son significativamente diferentes de los resultados esperados. Para cada una de las casillas verdes, los equipos restan lo observado de lo esperado, elevan al cuadrado el resultado, y dividen este resultado entre lo esperado.

Chi-cuadrado = (esperado – observado)2 / esperado

Chi-cuadrado = (7.772 – 7.611)2 / 7.772

Chi-cuadrado = 3,34

CHI-CUADRADO

 

¿Convierte?

Landing Page A

Landing Page B

TOTAL

No

3,34

3,37

6,71

Si

11,87

12,00

23,87

TOTAL

15,21

15,37

30,58

 

Ahora el equipo puede completar el test. Si la probabilidad, o valor p, en la casilla azul anterior, es mayor que su valor correspondiente en la tabla de distribución chi-cuadrado para el umbral del cinco por ciento, el equipo habrá descubierto una relación estadísticamente significativa.

En este ejemplo, el valor p de 30,58 es mayor que el valor del umbral del cinco por ciento de 3,84. Por lo tanto, los resultados son estadísticamente significativos.

Paso 6: Aplicar los resultados

Si un equipo determina que los resultados de sus test A/B son estadísticamente significativos, deberán sentirse seguros para aplicar lo aprendido a toda su población de usuarios. En este ejemplo los marketeros podrían utilizar la landing page A con toda su audiencia. Si los resultados no hubieran sido estadísticamente significativos, el equipo podría haber realizado las pruebas de nuevo con una muestra más grande.

El ejemplo anterior utiliza muchas matemáticas. Los equipos también pueden estudiar la significancia utilizando una herramienta dentro de Microsoft Excel, o una simple calculadora online. Esto sin duda es mucho más sencillo, pero merece la pena hacerlo unas cuantas veces para tener una idea del cálculo matemático que hay detrás de estas pruebas.

Ejemplos de significancia estadística para test A/B

Cualquier equipo que desee sentirse más seguro en sus tomas de decisiones se podrá beneficiar de las pruebas de significancia estadística. Por ejemplo:

Los equipos de marketing pueden testear:

– Emails abiertos, clicks y respuestas

– Conversión de landing pages

– Ratios de respuesta a notificaciones

– Ratios de conversión de notificaciones push

– Llamadas a la acción en sitios web

– Reacciones de los clientes ante lanzamientos de nuevos productos

– Reacciones de los clientes ante nuevos mensajes

Los equipos de producto pueden testear:

– Reacciones de los clientes a precios

– Demandas de nuevas características por parte de los clientes

– Reacciones de los usuarios ante un nuevo diseño

– Reacciones de los usuarios ante funcionalidades recién lanzadas

Los equipos de análisis pueden testear:

– Estudios sobre clientes

– Estudios de precios

– Estudios de mercado totalmente localizables

– Estudios internos

Los equipos de atención al cliente pueden testear:

– Métricas para nuevos canales de resolución

– Tiempo medio de gestión (AHT)

– Satisfacción del cliente (CSAT)

– Net-promoter score (NPS)

Cuándo no utilizar la significancia estadística

Las pruebas de significancia no necesitan ser aplicadas en cada test. A menos que el equipo tenga la posibilidad de hacer los cálculos rápidamente, debería reservarse a los casos en los que saber si los resultados de determinados test son válidos les ahorra tiempo, esfuerzo, dinero y credibilidad. Por ejemplo, cuando una característica diseñada de manera incorrecta pudiera ser difícil de eliminar más adelante, o si una campaña de marketing dirigida a toda la lista de la empresa pudiera mermar la confianza de los usuarios. Sin embargo, si la desventaja es intrascendente, las pruebas de significancia no harán otra cosa que frenar el progreso.

“Cuando las decisiones son de bajo costo o reversibles, simplemente inténtelo. La mayoría de las cosas son reversibles de algún modo”, dice el empresario y CTO de Helpful.com Farhan Thawar.  “Intentar y fallar es aprender. Pero si hay consecuencias que no se pueden revertir -o como dice Jeff Bezos, puertas que no se pueden atravesar-  entonces prueba”.

Lo mejor es combinarlo con un buen juicio

Como dice el viejo aforismo matemático, todos los modelos están equivocados, pero algunos son útiles. La significancia estadística  no es un lecho de brasas al que arrastrar a los colegas cuando llegan a una reunión parloteando emocionados sobre los números que acaban de presentar. Tampoco es un precepto imperativo. Es simplemente una herramienta para reducir errores y tomar decisiones con una mayor confianza.

Además hay a menudo criterios más importantes para probar la validez de un estudio que la significancia estadística, tales como asegurarse de que los datos no han sido contaminados por los sesgos del examinador. Como dijo Tom Redman, autor de Data Driven en Harvard Business Review, la pregunta más importante es, “¿El resultado se mantiene en el mercado, aunque sólo sea por un breve periodo de tiempo? Estoy a favor de utilizar estadísticas, pero siempre con buen juicio”.