En muchas ocasiones es necesario seleccionar unos cuántos datos en un estudio estadístico, pero en cualquier caso esta selección debe ser explicita, objetiva y estar justificada. Si esta selección no está bien hecha o no es conocida puede introducir "preferencias" que desvirtúe las conclusiones.
En ocasiones el sesgo es simplemente un error, una negligencia inconsciente como tantas otras. A veces, es una selección consciente que depende de la conclusión que se quiera "demostrar" y esta de quién pague el estudio estadístico, algo parecido a un delito de lesa matemática. Por desgracia, no siempre es fácil distinguir un caso del otro.
Veamos primero un ejemplo ya tradicional con resultado conocido. La primera encuesta electoral telefónica de la historia se realizó en 1933 en EEUU. En esa encuesta se predecía una victoria del candidato republicano Hoover (candidato a la reelección), sin embargo ganó Roosevelt de manera aplastante, lo que conllevo la aplicación de la política económica del New Deal para luchar con la depresión del 29, contraria a la realizada hasta ese momento por el presidente Hoover. ¿Hay alguna explicación para este error? Sí, se produjo un claro sesgo, se pregunto mayoritariamente a votantes del partido republicano. Y como pista insisto en que la encuesta fue telefónica.
Respuesta: Muy fácil. Estamos en 1933, tras 4 años de Gran Depresión y medidas económicas equivocadas (estilo austericidio). Los teléfonos no eran baratos, por tanto, el hacer una encuesta telefónica en esa época era introducir un sesgo basado en la clase social a la que pertenecía el encuestado. No quedaba reflejada la opinión del 100% de la población, sino solo de los más ricos.
Ahora veremos un caso más reciente. En este artículo La escuela concertada refuerza los recursos por alumno en la pública se usan datos del ministerio de educación, sin facilitar las fuentes por desgracia, para concluir que las autonomías en las que el porcentaje de colegios privados y concertados es mayor coinciden con las que gastan más en educación pública. Curiosamente para demostrar esto se escogen datos solo de 10 autonomías, y no de las 17 ¿Por qué? No parece que haya ninguna explicación.
En términos estadísticos lo que pretende probar esto es que existe una correlación entre el porcentaje en concertada y la inversión en pública, es decir a mayor porcentaje de una, mayor inversión en la otra. Si se representase en una gráfica veríamos una línea recta que sube de izquierda a derecha.
Si representamos los datos de las 10 autonomías escogidas se una línea claramente ascendente apoyando la conclusión mostrada en el titular.
Pero, curiosamente si seleccionamos los datos de las otras 7 autonomías (algunas de tanto peso como Madrid o Cataluña) obtenemos una gráfica que parece indicar lo contrario.
Entonces, ¿a qué carta quedarnos? Ninguna de las dos parece concluyente. ¿No hay ninguna herramienta estadística que nos permita saber si algo es concluyente antes de hacer gráficas? Claro que sí, faltaría más. Se llama coeficiente de correlación lineal . Como se ve en la explicación de Wikipedia este número se mueve entre -1 y +1:
- +1, entonces la correlación en torno a una recta creciente.
- -1, entonces la correlación en torno a una recta decreciente.
- 0, no es posible llegar a ninguna conclusión.
- Con todas las autonomías: 0,48
- Sólo las seleccionadas por los autores del artículo: 0,84
- Las demás autonomías: -0,86
Lo más importante: si queremos buscar la verdad no hay que colocar la conclusión delante de la investigación.
Hoja de cálculo con los datos, cálculos y gráficas:
Fuentes de los datos usados:
- http://www.mecd.gob.es/horizontales/estadisticas.html
- http://dptoccedu.uniovi.es/noticias/-/asset_publisher/HhG3/content/datos-y-cifras-curso-escolar-2011-2012?redirect=http://dptoccedu.uniovi.es/inicio
- http://dptoccedu.uniovi.es/c/document_library/get_file?uuid=d251d414-db8f-4ee5-938c-b1f1bafa15a3&groupId=238229
No hay comentarios:
Publicar un comentario