El otro dia leyendo el blog de Gemma decidí responder rápidamente rápidamente a este comentario:
Finalmente, se especuló con el tiempo que debe estar activo un test para
que la diferencia sea lo suficientemente significativa, representativa y fiable
como para tomar una decisión.
Y posteriormente decidí investigar un poco…
La verdad es que la información que da google tampoco es muy clarificadora, básicamente dice que a un 10% (mas o menos) de los usuarios se les muestra la nueva version de la web y se compara con el resto el grupo que sigue usando la web antigua.
Mi respuesta no iba mal encaminada:
Para calcular una muestra probabilistica, la fórmula genérica es la siguiente ( universo >100.000)
n=[(z^2)*P*Q]/(E^2)
donde: n= tamaño de la muestra, z=unidades de derivación típica correspondientes al nivel de confianza elegido ( 3 para 99,7% y 2 para 95,5%) P y Q= generalmente 50, pues desconocemos el valor de la varianza poblacional. E= el error máximo que nos permitimos. Esta formulita nos dará la cantidad de respuestas que debemos obtener para obtener una muestra representativa.No te aburro mas, porque esto da para mucho, dependiendo del tipo
de muestreo probabilístico que hagamos ( en este caso muestreo aleatorio simple)
de todas formas si quieres aclaraciones o ayuda no dudes en ponerte en contacto
conmigo, ya que me has dado una buena idea para investigar y crear una nueva
entrada para mi blog. Un saludo Gemma ¡¡sigue así!!
Pero no fuí lo suficientemente específico.
- En mi comentario asumo, por un lado que todos los usuarios tienen la misma probabilidad de ser contactados ( P y Q = 50) premisa que no es cierta, ya que unos usuarios acceden en mas ocasiones que otros, con lo que la varianza poblacional sería diferente.
- También asumo que la web tiene mas de 100.000 usuarios, ¿pero que pasa con aquellas que tienen menos usuarios?, bien, para éstos la fórmula general seria la siguiente:
n=[(z^2)*P*Q*N]/[(E^2)*(N-1)+(Z^2)*P*Q]
Un poco larga ¿no?, pero no os preocupéis, lo único que hemos añadido es N, que es el tamaño de la población (<100.000).
3.-También asumo que no aplicamos ningún tipo de segmentación, con lo que la información obtenida sería mucho mas valiosa, pero eso en siguientes post, que a estas alturas os estaréis quedando dormidos…
Por tanto no es realmente una cuestión de tiempo lo que realmente nos va a dar una muestra significativa, ésto depende de la cantidad de usuarios que naveguen por nuestra web y de la paciencia que tengamos hasta conseguir el número idóneo. A partir de ahí ya sólo nos queda analizar los resultados y tomar una decisión…
Esto no es todo por ahora, en próximos post comentaré la aplicación de la segmentación al A/B TEST, explicando cómo obtener muestras representativas por estratificadas y por conglomerados según lo que nos interese estudiar….
Un saludo a todos, y tened en cuenta que cuando google nos da la respuesta a nuestro A/B TEST, los resultados ya se consideran representativos, todos estos cálculos son simple curiosidad…
Muy interesante, la verdad. Me gusta tu forma de explicar y de como proponer formas de análisis.
Veo que eres un auténtico portento en estadística.
Espero impaciente más artículos tuyos.
Un abrazo.
gracias!! tienes el honor de ser el «primer comentarista» del blog Espero que los siguientes post también os resulten interesantes, aunque estos problemas estadísticos ya estan solucionados por google (espero), yo sólo intento «imaginar» una explicacion…
This is a wonderful post Carlos, even if I read it through Google Translate!
I think you have done a great job of taking something and then applying some nice math to it.
Great work!
-Avinash.
¿ Y esto pasado a la TV ? Yo he metido la formula en Excel y se hace sola, así que intento sacar los números al reves.
Para un universo de 4,5 millones de personas, y una muestra de 4.500 medidores de audiencia. ¿Qué error me sale? ¿Que valores z, P y Q debo poner?
@miguel: veo que tienes una ligerilla confusión de términos…
1.- las fórmulas que aqui te pongo son generales, a las muestras les es indiferente ser de internet, de tv o de macramé…
2.-En el caso que me dices, probablemente, debas hablar con sofres… aunque bueno, te explico u poco para un universo de 4,5Millones los datos que pides son: py q =50 ya que o eliges hombre o eliges mujer (50%) elegimos un z=2 ( 95,5% de probabilidad de acierto en la inferencia) y para E pues el error que te quieras permitir…( 4,5%)… haz la cuenta tu que ahora no tengo calculadora…
3.- tu dices 4500.. ¿por qué?, porque sofres no lo hace así, primero establece segmentos depoblación diferentes a los que asigna una muestra diferente, y ya sea por cuotas o por segmentos, pero eso es otra historia mas larga y nos falta cerveza en la fábrica de guiness para echar el tiempo que necesitamos para explicartelo con detenimiento…
ooops me equivoqué!!
p y q son 50, 0,5 es la probabilidad de ser elegido para la muestra, o lo eres o no… no mujer/hombre…