Etiquetas

4eso (13) bachillerato (12) Estadística (11) 2Bachillerato (10) 1bachillerato (9) probabilidad (8) 2eso (7) 3eso (5) desviación típica (5) Porcentajes (4) ciencia (4) desigualdad (4) economía (4) elecciones (4) física (4) media (4) democracia (3) gráficas (3) ley d'Hont (3) Darwin (2) Examen (2) astronomía (2) error (2) exposición (2) funciones (2) física teórica (2) geometría (2) gráfica (2) historia (2) lotería (2) matemáticas CCSS (2) proporcionalidad (2) relatividad (2) sucesión (2) Alejandría. biblioteca (1) Bayes (1) Constitución (1) CosmoCaixa (1) Crack 29 (1) Gagarin (1) Gini (1) Hipatia (1) Hoover (1) Número irracional (1) PAU (1) Porcentajes encadenados (1) Queen (1) Renta per capita (1) actividad (1) calendario (1) clase social (1) diagrama de barras (1) diagrama de sectores (1) día del libro (1) ecología (1) ecuaciones (1) elipse (1) evolución (1) exponencial (1) extremo relativo (1) fracción (1) frecuencia (1) gravitación (1) gregoriano (1) hipercubo (1) inecuaciones (1) inicio (1) interpolación (1) juliano (1) matemáticas financieras (1) media aritmética (1) media geométrica (1) mediana (1) museo (1) máximo (1) mínimo (1) música (1) número normal (1) número trascendente (1) ondas (1) ondas gravitatorias (1) paradoja (1) pobreza (1) polinomios (1) politica (1) porcentaje (1) profecía autocumplida (1) punto de inflexión (1) rango (1) riqueza (1) salario (1) sesgo (1) solución (1) tabla (1) taller (1) talleres (1) valor medio (1) álgebra (1)

jueves, 9 de mayo de 2013

El sesgo, ¿es el nombre de un ogro?

Una nueva entrada sobre ... ¡estadística! ¡Qué sorpresa! En este caso tratamos con algo de nombre casi tan oscuro y feo como su significado: el sesgo estadístico.

En muchas ocasiones es necesario seleccionar unos cuántos datos  en un estudio estadístico, pero en cualquier caso esta selección debe ser explicita, objetiva y  estar justificada. Si esta selección no está bien hecha o no es conocida puede introducir "preferencias" que desvirtúe las conclusiones.

En ocasiones el sesgo es simplemente un error, una negligencia inconsciente como tantas otras. A veces, es una selección consciente que depende de la conclusión que se quiera "demostrar" y esta de quién pague el estudio estadístico, algo parecido a un delito de lesa matemática. Por desgracia, no siempre es fácil distinguir un caso del otro.

Veamos primero un ejemplo ya tradicional con resultado conocido. La primera encuesta electoral telefónica de la historia se realizó en 1933 en EEUU. En esa encuesta se predecía una victoria del candidato republicano Hoover (candidato a la reelección), sin embargo ganó Roosevelt de manera aplastante, lo que conllevo la aplicación de la política económica del New Deal para luchar con la depresión del 29, contraria a la realizada hasta ese momento por el presidente Hoover. ¿Hay alguna explicación para este error? Sí, se produjo un claro sesgo, se pregunto mayoritariamente a votantes del partido republicano. Y como pista insisto en que la encuesta fue telefónica.

Respuesta: Muy fácil. Estamos en 1933, tras 4 años de Gran Depresión y medidas económicas equivocadas (estilo austericidio). Los teléfonos no eran baratos, por tanto, el hacer una encuesta telefónica en esa época era introducir un sesgo basado en la clase social a la que pertenecía el encuestado. No quedaba reflejada la opinión del 100% de la población, sino solo de los más ricos.

Ahora veremos un caso más reciente. En este artículo La escuela concertada refuerza los recursos por alumno en la pública se usan datos del ministerio de educación, sin facilitar las fuentes por desgracia, para concluir que las autonomías en las que el porcentaje de colegios privados y concertados es mayor  coinciden con las que gastan más en educación pública. Curiosamente para demostrar esto se escogen datos solo de 10 autonomías, y no de las 17 ¿Por qué? No parece que haya ninguna explicación.

En términos estadísticos lo que pretende probar esto es que existe una correlación entre el porcentaje en concertada y la inversión en pública, es decir a mayor porcentaje de una, mayor inversión en la otra. Si se representase en una gráfica veríamos una línea recta que sube de izquierda a derecha.

Si representamos los datos de las 10 autonomías escogidas se una línea claramente ascendente apoyando la conclusión mostrada en el titular.
 Pero, curiosamente si seleccionamos los datos de las otras 7 autonomías (algunas de tanto peso como Madrid o Cataluña) obtenemos una gráfica que parece indicar lo contrario.
Entonces, ¿a qué carta quedarnos? Ninguna de las dos parece concluyente. ¿No hay ninguna herramienta estadística que nos permita saber si algo es concluyente antes de hacer gráficas? Claro que sí, faltaría más. Se llama coeficiente de correlación lineal . Como se ve en la explicación de Wikipedia este número se mueve entre -1 y +1:
  • +1, entonces  la correlación en torno a una recta creciente.
  • -1, entonces la correlación en torno a una recta decreciente.
  • 0, no es posible llegar a ninguna conclusión. 
En este caso, los valores son:
  • Con todas las autonomías: 0,48
  • Sólo las seleccionadas por los autores del artículo: 0,84
  • Las demás autonomías: -0,86
Aquí hay una tabla en donde se clasifican lo seguro de una correlación a partir del valor este valor. Según esa tabla al conjunto de las autonomías le correspondería una correlación media, lo que parece que apoya, aunque sea parcialmente, la conclusión del artículo. Pero no olvidemos que en este escenario todas las autonomías entran con el mismo peso y quizás deberían tener más importancia las más pobladas (como Madrid o Cataluña) que están en el conjunto de las comunidades eliminadas del estudio.

Lo más importante: si queremos buscar la verdad no hay que colocar la conclusión delante de la investigación.

Hoja de cálculo con los datos, cálculos y gráficas: 

Fuentes de los datos usados:




No hay comentarios:

Publicar un comentario