A/B TESTING: muestras representativas 1

El otro dia leyendo el blog de Gemma decidí responder rápidamente rápidamente a este comentario:

Finalmente, se especuló con el tiempo que debe estar activo un test para
que la diferencia sea lo suficientemente significativa, representativa y fiable
como para tomar una decisión
.

Y posteriormente decidí investigar un poco…

La verdad es que la información que da google tampoco es muy clarificadora, básicamente dice que a un 10% (mas o menos) de los usuarios se les muestra la nueva version de la web y se compara con el resto el grupo que sigue usando la web antigua.

Mi respuesta no iba mal encaminada:

Para calcular una muestra probabilistica, la fórmula genérica es la siguiente ( universo >100.000)

n=[(z^2)*P*Q]/(E^2)

donde: n= tamaño de la muestra, z=unidades de derivación típica correspondientes al nivel de confianza elegido ( 3 para 99,7% y 2 para 95,5%) P y Q= generalmente 50, pues desconocemos el valor de la varianza poblacional. E= el error máximo que nos permitimos. Esta formulita nos dará la cantidad de respuestas que debemos obtener para obtener una muestra representativa.No te aburro mas, porque esto da para mucho, dependiendo del tipo
de muestreo probabilístico que hagamos ( en este caso muestreo aleatorio simple)
de todas formas si quieres aclaraciones o ayuda no dudes en ponerte en contacto
conmigo, ya que me has dado una buena idea para investigar y crear una nueva
entrada para mi blog. Un saludo Gemma ¡¡sigue así!!

Pero no fuí lo suficientemente específico.

  1. En mi comentario asumo, por un lado que todos los usuarios tienen la misma probabilidad de ser contactados ( P y Q = 50) premisa que no es cierta, ya que unos usuarios acceden en mas ocasiones que otros, con lo que la varianza poblacional sería diferente.
  2. También asumo que la web tiene mas de 100.000 usuarios, ¿pero que pasa con aquellas que tienen menos usuarios?, bien, para éstos la fórmula general seria la siguiente:

n=[(z^2)*P*Q*N]/[(E^2)*(N-1)+(Z^2)*P*Q]

Un poco larga ¿no?, pero no os preocupéis, lo único que hemos añadido es N, que es el tamaño de la población (<100.000).

3.-También asumo que no aplicamos ningún tipo de segmentación, con lo que la información obtenida sería mucho mas valiosa, pero eso en siguientes post, que a estas alturas os estaréis quedando dormidos…

Por tanto no es realmente una cuestión de tiempo lo que realmente nos va a dar una muestra significativa, ésto depende de la cantidad de usuarios que naveguen por nuestra web y de la paciencia que tengamos hasta conseguir el número idóneo. A partir de ahí ya sólo nos queda analizar los resultados y tomar una decisión…

Esto no es todo por ahora, en próximos post comentaré la aplicación de la segmentación al A/B TEST, explicando cómo obtener muestras representativas por estratificadas y por conglomerados según lo que nos interese estudiar….

Un saludo a todos, y tened en cuenta que cuando google nos da la respuesta a nuestro A/B TEST, los resultados ya se consideran representativos, todos estos cálculos son simple curiosidad…

Shares