En vista de cómo está la situación de la ciencia y la tecnología en España, quizás alguien espere en esta entrada un artículo catastrófico sobre el futuro de la ciencia. Pero no, es más sencillo. Se trata de una serie e actividades de carácter científico-tecnológico que se realizan en el Museo de Ciencia y Tecnología en Madrid durante el próximo fin de semana del 11 y 12 de mayo.
Si alguien pasa por Madrid que lo mir, antes de que toda la Ciencia española se pueda ver solo en el museo.
Finde científico
Comentarios sobre matemáticas relacionadas con noticias o con las tareas y temas que trato en las clases de mates.
viernes, 10 de mayo de 2013
jueves, 9 de mayo de 2013
El sesgo, ¿es el nombre de un ogro?
Una nueva entrada sobre ... ¡estadística! ¡Qué sorpresa! En este caso tratamos con algo de nombre casi tan oscuro y feo como su significado: el sesgo estadístico.
En muchas ocasiones es necesario seleccionar unos cuántos datos en un estudio estadístico, pero en cualquier caso esta selección debe ser explicita, objetiva y estar justificada. Si esta selección no está bien hecha o no es conocida puede introducir "preferencias" que desvirtúe las conclusiones.
En ocasiones el sesgo es simplemente un error, una negligencia inconsciente como tantas otras. A veces, es una selección consciente que depende de la conclusión que se quiera "demostrar" y esta de quién pague el estudio estadístico, algo parecido a un delito de lesa matemática. Por desgracia, no siempre es fácil distinguir un caso del otro.
Veamos primero un ejemplo ya tradicional con resultado conocido. La primera encuesta electoral telefónica de la historia se realizó en 1933 en EEUU. En esa encuesta se predecía una victoria del candidato republicano Hoover (candidato a la reelección), sin embargo ganó Roosevelt de manera aplastante, lo que conllevo la aplicación de la política económica del New Deal para luchar con la depresión del 29, contraria a la realizada hasta ese momento por el presidente Hoover. ¿Hay alguna explicación para este error? Sí, se produjo un claro sesgo, se pregunto mayoritariamente a votantes del partido republicano. Y como pista insisto en que la encuesta fue telefónica.
Respuesta: Muy fácil. Estamos en 1933, tras 4 años de Gran Depresión y medidas económicas equivocadas (estilo austericidio). Los teléfonos no eran baratos, por tanto, el hacer una encuesta telefónica en esa época era introducir un sesgo basado en la clase social a la que pertenecía el encuestado. No quedaba reflejada la opinión del 100% de la población, sino solo de los más ricos.
Ahora veremos un caso más reciente. En este artículo La escuela concertada refuerza los recursos por alumno en la pública se usan datos del ministerio de educación, sin facilitar las fuentes por desgracia, para concluir que las autonomías en las que el porcentaje de colegios privados y concertados es mayor coinciden con las que gastan más en educación pública. Curiosamente para demostrar esto se escogen datos solo de 10 autonomías, y no de las 17 ¿Por qué? No parece que haya ninguna explicación.
En términos estadísticos lo que pretende probar esto es que existe una correlación entre el porcentaje en concertada y la inversión en pública, es decir a mayor porcentaje de una, mayor inversión en la otra. Si se representase en una gráfica veríamos una línea recta que sube de izquierda a derecha.
Si representamos los datos de las 10 autonomías escogidas se una línea claramente ascendente apoyando la conclusión mostrada en el titular.
Pero, curiosamente si seleccionamos los datos de las otras 7 autonomías (algunas de tanto peso como Madrid o Cataluña) obtenemos una gráfica que parece indicar lo contrario.
Entonces, ¿a qué carta quedarnos? Ninguna de las dos parece concluyente. ¿No hay ninguna herramienta estadística que nos permita saber si algo es concluyente antes de hacer gráficas? Claro que sí, faltaría más. Se llama coeficiente de correlación lineal . Como se ve en la explicación de Wikipedia este número se mueve entre -1 y +1:
Lo más importante: si queremos buscar la verdad no hay que colocar la conclusión delante de la investigación.
Hoja de cálculo con los datos, cálculos y gráficas:
Fuentes de los datos usados:
En muchas ocasiones es necesario seleccionar unos cuántos datos en un estudio estadístico, pero en cualquier caso esta selección debe ser explicita, objetiva y estar justificada. Si esta selección no está bien hecha o no es conocida puede introducir "preferencias" que desvirtúe las conclusiones.
En ocasiones el sesgo es simplemente un error, una negligencia inconsciente como tantas otras. A veces, es una selección consciente que depende de la conclusión que se quiera "demostrar" y esta de quién pague el estudio estadístico, algo parecido a un delito de lesa matemática. Por desgracia, no siempre es fácil distinguir un caso del otro.
Veamos primero un ejemplo ya tradicional con resultado conocido. La primera encuesta electoral telefónica de la historia se realizó en 1933 en EEUU. En esa encuesta se predecía una victoria del candidato republicano Hoover (candidato a la reelección), sin embargo ganó Roosevelt de manera aplastante, lo que conllevo la aplicación de la política económica del New Deal para luchar con la depresión del 29, contraria a la realizada hasta ese momento por el presidente Hoover. ¿Hay alguna explicación para este error? Sí, se produjo un claro sesgo, se pregunto mayoritariamente a votantes del partido republicano. Y como pista insisto en que la encuesta fue telefónica.
Respuesta: Muy fácil. Estamos en 1933, tras 4 años de Gran Depresión y medidas económicas equivocadas (estilo austericidio). Los teléfonos no eran baratos, por tanto, el hacer una encuesta telefónica en esa época era introducir un sesgo basado en la clase social a la que pertenecía el encuestado. No quedaba reflejada la opinión del 100% de la población, sino solo de los más ricos.
Ahora veremos un caso más reciente. En este artículo La escuela concertada refuerza los recursos por alumno en la pública se usan datos del ministerio de educación, sin facilitar las fuentes por desgracia, para concluir que las autonomías en las que el porcentaje de colegios privados y concertados es mayor coinciden con las que gastan más en educación pública. Curiosamente para demostrar esto se escogen datos solo de 10 autonomías, y no de las 17 ¿Por qué? No parece que haya ninguna explicación.
En términos estadísticos lo que pretende probar esto es que existe una correlación entre el porcentaje en concertada y la inversión en pública, es decir a mayor porcentaje de una, mayor inversión en la otra. Si se representase en una gráfica veríamos una línea recta que sube de izquierda a derecha.
Si representamos los datos de las 10 autonomías escogidas se una línea claramente ascendente apoyando la conclusión mostrada en el titular.
Pero, curiosamente si seleccionamos los datos de las otras 7 autonomías (algunas de tanto peso como Madrid o Cataluña) obtenemos una gráfica que parece indicar lo contrario.
Entonces, ¿a qué carta quedarnos? Ninguna de las dos parece concluyente. ¿No hay ninguna herramienta estadística que nos permita saber si algo es concluyente antes de hacer gráficas? Claro que sí, faltaría más. Se llama coeficiente de correlación lineal . Como se ve en la explicación de Wikipedia este número se mueve entre -1 y +1:
- +1, entonces la correlación en torno a una recta creciente.
- -1, entonces la correlación en torno a una recta decreciente.
- 0, no es posible llegar a ninguna conclusión.
- Con todas las autonomías: 0,48
- Sólo las seleccionadas por los autores del artículo: 0,84
- Las demás autonomías: -0,86
Lo más importante: si queremos buscar la verdad no hay que colocar la conclusión delante de la investigación.
Hoja de cálculo con los datos, cálculos y gráficas:
Fuentes de los datos usados:
- http://www.mecd.gob.es/horizontales/estadisticas.html
- http://dptoccedu.uniovi.es/noticias/-/asset_publisher/HhG3/content/datos-y-cifras-curso-escolar-2011-2012?redirect=http://dptoccedu.uniovi.es/inicio
- http://dptoccedu.uniovi.es/c/document_library/get_file?uuid=d251d414-db8f-4ee5-938c-b1f1bafa15a3&groupId=238229