miércoles, 2 de febrero de 2022

Encuestas sin errores, ¿erróneas?

Voy a colocar aquí una entrada de mi otro blog, el de mis alumnos de 2º de bachillerato. Aunque creo que es de interés para todo aquél que quiera ver como de fiables pueden ser algunas encuestas publicadas.

Hace un tiempo se publicó en la Vanguardia una noticia con el siguiente impactante titular:

La permanencia en la UE ganaría un nuevo referéndum del Brexit cinco años después

Después de leer el resultado de las votaciones de la muestra (51% a favor de permanecer en la UE frente al 49% en contra), yo seguí buscando y rebuscando para encontrar el error estadístico asociado a esta muestra y encuesta...sin éxito. Así que decidí buscar los datos que me permitirían calcular este error por mi mismo. Y los encontré en el siguiente parrafo:

"Continuar en la UE sumaría el 51% de las papeletas, frente al 49% la ruptura, según las conclusiones de la firma demoscópica a partir de un sondeo en el que participaron 2.191 adultos y del que han sido retirados los indecisos."

Añadimos la confianza que queremos tener en las conclusiones. Yo he elegido una confianza del 99%, es decir, el resultado real para toda la población podría salirse fuera del 51% más el error solo 1 vez de cada 100.

Elegir 99% no es mala opción, en muchas encuestas publicadas la confianza es del 95,5% (z=2)

Calcula la cota de error estadístico (o el intervalo de confianza) con una confianza del 99%

Para una confianza del 99% el valor crítico z = 2,575

n= 2191 (tamaño de la muestra)

p = 51% = 0,51 q = 49% = 0,49

E ⋍ 0,0275 = 2,75% ¡¡¡!!!!

Este error es mayor que la diferencia del voto entre ambas opciones. Me parece que esta encuesta es muy poco concluyente. Habría que decir que según la encuesta no se sabe quién ganaría si se repitiese ahora el referéndum.

¿Cual tendría que ser el tamaño de la muestra para que el error fuera inferior a 1% (la mitad de la distancia entre ambas opciones)?

Suponiendo que el resto de parámetros tienen el mismo valor.

n = 16569,9

El tamaño de la muestra debe ser igual o mayor que 16.570 para que el error sea inferior al 1%, y la conclusión de la encuesta pueda ser significativa.

Pero me temo que este estudio sería bastante más caro, y parece que no merece la pena pagar más para conseguir un titular como este.

Podéis ver todas las fórmulas usadas en esta entrada en Respuesta a la pregunta "¿una muestra de 60.000 test es fiable?"