No suele ser raro oír por ahí que las estadísticas mienten o manipulan. No deja de ser curioso: demasiados matemáticos se han dedicado al campo de la estadística para crear una base formal y correcta como para que ahora digamos que las estadísticas mienten.
Lo que ocurre en realidad es distinto. Si ves a alguien intentando clavar un clavo con el mango de un martillo, o a otro arreglando la batería de su móvil a martillazo puro, ¿diríais que el martillo no funciona? Pues con la estadística pasa lo mismo: mucha gente no sabe usarla.
Ahí me falta contexto, o por qué los andaluces son siempre "los que más"
Uno de los problemas más frecuentes es no tener en cuenta el contexto o usar números incorrectos para hacer comparaciones. Por ejemplo, ¿sabíais que en Andalucía es donde más perros se abandonan? ¿O que La Rioja es la comunidad autónoma con menor cantidad de deuda? Esos datos no son mentira, desde luego, pero transmiten una imagen equivocada. Y es que si tenemos en cuenta Andalucía es la comunidad autónoma con más población y La Rioja la que tiene menos población, igual esos datos no son tan sorprendentes.
Es un ejemplo que muchas veces se repite: muestro una cifra que parece alarmente pero que con el contexto apropiado no suena tan rara. Muchas veces hay que relativizar los datos para entenderlos. En el caso de los abandonos, un dato mucho más útil sería ver los abandonos por cada mil habitantes, que ya nos ayudará mejor a ver qué pasa exactamente. Podéis ver en la gráfica qué es lo que ocurre cuando pasamos de un dato a otro y como cambia la impresión que nos llevamos.

Cuando se dan medidas insuficientes
De momento sólo hemos hablado de datos. Ya si entramos en estadística de verdad, nos encontramos con un fallo muy común pero que se pasa mucho por alto: dar sólo medidas de centralidad. Para esto, me viene muy bien el famoso "chiste" de _"Si yo tengo 100 euros y tú 0, la estadística dice que cada uno tenemos 50"_. Precisamente por esto surgieron las medidas de dispersión: a veces no sólo nos interesa saber cuál es la media sino también cómo se distribuyen los datos.
Un ejemplo muy claro, por seguir con la economía, es el del salario medio. Ved, por ejemplo, este artículo sobre el salario medio en España en 2013. Todo muy bonito, pero, ¿cómo se distribuyen los salarios? Desde luego, no es lo mismo que el 90% de la gente cobre entre 1.600 y 2.000 euros a que haya un grupo del 45% con salario de 0-500 euros y otro grupo del mismo tamaño con salarios de 100.000-200.000 euros.
Cuando hablamos de "medias" (medidas de centralidad) nos dejamos fuera toda esa información (medidas de dispersión) que nos dice cómo están distribuidos los datos. Y aunque estas herramientas (desviación estándar o diagramas de caja, por ejemplo) están muy extendidas, es difícil verlas en un periódico o en una rueda de prensa, y muchas veces esconden información que pueden cambiar la forma de ver las cosas (sin ir más lejos, echadle un ojo al ejemplo de antes del salario y pensad cómo puede cambiar la situación si cambia la distribución de salarios).
Los crímenes de los gráficos

Una parte de la estadística también se dedica a describir la realidad y los datos con gráficos. Y entre desconocimiento y mala intención, es extremadamente fácil que den una impresión incorrecta. El fallo más común suele ser no poner escalas (o ignorarlas), como en este ejemplo sobre difusión de prensa: no pongo ejes, muevo mi gráfica un poco más para arriba y, por arte de magia, salgo mejor parado que antes.
Plantar una línea y sacar conclusiones no es estadística: es sólo plantar líneas
Un caso especial cuando hablamos de describir la realidad con gráficos: la magnífica costumbre de mucha gente de plantar un gráfico de dispersión, plantar una recta "de mejor ajuste" y decir que los datos se distribuyen así, porque sí, porque lo dice Excel (o Numbers que es más _hipster_). El ejemplo perfecto lo tenéis en el gráfico de abajo: muestra los beneficios obtenidos según la tasa de admisión de la universidad en la que se estudia (menor tasa de admisión supone, según The Economist, mejor universidad). Y, por razones desconocidas, plantan una línea que parece querer demostrar que la universidad donde estudies no importa.

Y no son los únicos. Curiosamente, los analistas tecnológicos tienen a hacer mucho este tipo de cosas: coger datos, plantar una función que parece que se ajusta y de ahí sacar conclusiones, como en este artículo de Horace Dediu.
La cuestión es que esto no es más que un engaño: da la sensación de que los datos respaldan las tesis que se proponen cuando en realidad esas líneas de "mejor ajuste" no demuestran nada más que poco rigor matemático. Uno sólo puede fiarse de esas "líneas de ajuste" cuando se razona que los datos deberían ajustarse al modelo y, sobre todo, cuando después se dan las medidas de ajuste que dicen si de verdad el modelo cuadra o no. Y hablar de modelos me sirve para introduciros a la siguiente sección: predicciones.
Cuidado con las predicciones
Lo cierto es que esto no se suele discutir mucho, así que voy a aprovechar la oportunidad. La estadística no predice nada. Nada. Se puede usar para preparar y verificar modelos que después se usan para predecir, pero la estadística no predice nada por sí misma.
El ejemplo más simple lo tenemos en el periodismo deportivo: "Según las estadísticas, el equipo local ha ganado más veces así que es más probable que gane este encuentro" o "siempre que el equipo ha ganado 2-1 en la ida se ha clasificado". Es una mezcla de no saber que las estadísticas no predicen nada y de ese falso vínculo entre correlación (dos cosas ocurren a la vez/relacionadas) y causalidad (una cosa causa la otra).
Más complicado es un tema que todos tendremos muy reciente: el de los sondeos electorales. ¿Por qué a veces fallan como escopetas de feria y a veces no? ¿Es culpa de la estadística?
La respuesta es que no, no es culpa de la estadística, más que nada porque como decía antes la estadística no predice nada, y en concreto no predice cuántos votos va a sacar cada partido. Y el problema es que las encuestas no suelen mostrar esa incertidumbre: pocas veces se dan datos en términos de probabilidad (p.ej., _"X partido conseguirá entre A y B escaños con un Z% de probabilidad"_, algo parecido a lo que suelen hacer en Politikon). Y es que, ¿de qué me sirve que me den una cifra concreta si la estimación es imprecisa? Por así decirlo, es poco honesto.
Otro error muy común a la hora de dar predicciones (o, más concretamente, de sacar conclusiones a partir de datos) es el de usar probabilidades de forma burda sin tener en cuenta la teoría estadística. El ejemplo que recuerdo aquí es el de "la probabilidad de cometer un error al meter un DNI y que salga el de la Infanta Cristina es casi nula". Y es que las probabilidades son muy curiosas y pocas veces te permiten dar afirmaciones rotundas.
Lo que representa el anterior enlace y lo que se suele hacer mal muchas veces es decir lo siguiente: suponemos que algo ocurre (la hipótesis; en este caso, que hubo un error fortuito al meter el DNI), y calculamos las probabilidades de que ocurra algo que sabemos que ha ocurrido (que salga el DNI de la infanta). Si las probabilidades son muy bajas, entonces la estadística dice que la hipótesis es falsa, ¿no?
Lo cierto es que las cosas son algo más complicadas: el resultado final no es una apreciación subjetiva del estilo "esto es poco probable", sino una probabilidad de que ocurra lo que hayamos observado si nuestra hipótesis es cierta, lo que se llama un _p-valor_. Pero, fijaos lo prudentes que son los matemáticos, que ese _p-valor_ no mide la probabilidad de que la hipótesis sea cierta, porque eso no lo pueden saber. En resumidas cuentas: la estadística ni siquiera es capaz de decirte la probabilidad de que una hipótesis sea cierta.
Otra manifestación de este mismo problema son los famosos "según un estudio". Esos estudios dicen que si haces algo (levantarte pronto, poner filtros en fotos o tener los dedos más largos) entonces es más probable que ocurra otra cosa: seas mejor persona, tengas más visitas, y la última os la dejo a la imaginación. Lo que pocas veces se menciona es cuánta seguridad se tiene en ese modelo. No sirve de nada encontrar una correlación si no es lo suficientemente significativa (por si tenéis curiosidad, en el caso de Yahoo sí sacaron esos valores y les salió que, efectivamente, el efecto de los filtros era muy significativo).
Entonces, ¿puedo fiarme de la estadística o no?
La estadística es fiable. El problema viene cuando se usa mal o cuando no te dan todos los datos
De la estadística sí. De los que te cuentan las estadísticas, no te fíes. Por suerte no hace falta saber muchas matemáticas para detectar los fallos cuando nos hablan de estadísticas. Mirar si los gráficos son lo que parecen ser o nos mienten, si nos faltan datos para hacernos la imagen global que pretenden que nos hagamos o buscar esas medidas de la seguridad de las afirmaciones que se hacen.
En definitiva, un poco de escepticismo sano para evitar que nos engañen con un mal uso de las estadísticas, siempre preguntando de dónde vienen los datos y dudando si lo que nos dicen choca mucho con lo que consideramos razonable (y si no choca también deberíamos dudar, que las cámaras de eco son malas).
Imagen | LendingMemo
Ver 34 comentarios
34 comentarios
the_lord
Gran artículo! Todo el mundo sabe que las estadísticas son manipulables, pero poca gente sabe cómo. Artículos asi me parecen interesantísimos, y además ayudan a ver las cosas con filtros (de los que no dan visitas) ;)
oterror
Muy buen artículo, pero no es cuestión de que mientan las estadísticas, la cosa es que nos quieran engañar con ellas. Para los interesados en el tema existe un libro estupendo sobre ello. Cómo mentir con estadísticas, de Darrell Huff, páginas escritas con ingenio y humor. Un curso de sentido común para aprender a descubrir los ardides con los que cada día pretenden engañarnos, manipulando cifras y gráficas, los medios de comunicación, los políticos, la publicidad...
bacp
La estadística no miente, es el marketing el que engatusa.
hemos pasado de oir a "la serie mas vista" a "la serie española mas vista de la noche de los jueves" si te pones a zappear, futbol, concursos, series americanas... en resumen, no solo es la mas vista, es la única.
y la otra que me encanta es la de "9 de cada 10 lo recomiendan" o 6 de cada 7 o 2 de cada 3, da igual el porcentaje por muy malo que sea, lo importante es pasar el dato a una forma en la que parezca que solo hay una persona que no lo recomienda, como si quisieran dar a entender que vale, todos todos no lo recomiendan pero solo hay una persona (que está sola) que no lo hace.
suele usarse en cremas y tratamientos de bellezaa y adelgazamiento, pero incluso el 9 de cada 10 significa que 10 personas de cada 100 no lo recomiendan, con ese porcentaje un vendedor en ebay no vuelve a vender nada.
carlos2kx
Este artículo me recuerda un titular recurrente que aparece en la prensa cada año.
Por ejemplo, por citar uno, el diario ABC publicaba el año pasado que "El 26% de los fallecidos en turismo no llevaba el cinturón de seguridad". Lo que simplificando la estadística se podría interpretar que el 74% de los fallecidos en turismo SI llevaba el cinturón de seguridad, por lo que irónicamente podemos pensar que es más seguro no llevarlo.
Es lo que pasa con las estadísticas, que se pueden malinterpretar muy fácilmente.
Víctor Demóstenes
Excelente artículo, ¡felicidades!
Yo apuntaría otra cosa más con la que nos confunden a menudo y lo malo es que los periodistas tampoco se dan cuenta y les siguen el rollo a los políticos:
¿Cuántas veces hemos visto que nos dan unas cifras con una (aparente) precisión increíble? Aquí algunos ejemplos:
* COVID-19: "Han muerto en España 27.239 personas". (cifra inventada por mí, ahora mismo).
Vamos a ver, esa cifra es el mínimo número de personas que han muerto, contabilizadas con una metodología determinada.
* Paro: "El paro ha subido en 258.597 personas".
A ver, esto es según la encuesta de la EPA. ¿Una encuesta tiene una precisión de una unidad? Pues no, obviamente.
* "Pedro Sánchez (según Tezanos...) obtiene una valoración de 5,2 (que aprueba...). Le sigue Pablo Casado con un 4.9 (que suspende...), luego Pablo Iglesias con un 4.4 y Abascal con un 4.3". (cifras inventadas por mí, ahora mismo)
¿Las encuestas de valoración de opinión tienen una precisión de decimales? ¿En serio? ¿No se trata más bien de un método para que quede en la retina que uno es el mejor valorado y otro el peor? Sobre todo, el caso de Iglesias y Abascal por lo juntitos que están, separados por una mísera decimal, pero eso sí, bien ordenaditos, es más que sospechoso. (Las cifras no son estas, pero recuerdo que en las noticias recientes lo presentaron así y me soprendió esa decimal que les separaba).
No se pueden (no se deben) dar cifras con una precisión mayor que el del margen de error. Recuerdo que eso me lo enseñaron en Física, a la hora de anotar los resultados de los experimentos.
Si la encuesta de población activa (EPA) tiene un error (por ejemplo) de 1.000 personas, entonces la cifra que hay que dar es 259.000 personas (más menos mil). Si la encuesta de valoración de los políticos tiene un margen de error de 0,5 (poco me parecería), entonces los resultados (en este ejemplo) son 5 para Sánchez, 5 para Casado, 4 para Iglesias y 4 para Abascal. Dos empates... pero claro, eso no interesa.... Si no sabemos contar el número de muertos por COVID (lo cual es complicado), habrá que dar órdenes de magnitud: Más de 27.000 personas según el método de registro de Sanidad (que consiste en blablabla) y cerca de 50.000 si se comparan el número de fallecidos de este año con los de años anteriores.
fanios
Gran artículo. Si critico algunos, es justo alabar los que me gustan.
Eagle
Con tus artículos sigues demostrando que eres uno de los mayores valores que tiene este blog. Demuestras siempre conocimientos profundos de los temas que abordas y redactas artículos excelentes sobre temas a veces complejos que simplificas para mortales cuando hay que simplificar. Enhorabuena.
Usuario desactivado
Lo mas habitual es el tema de las falsas correlaciones.
Por ejemplo, entre las personas que sufren quemaduras del sol severas, las que habian comido helado durante ese dia es mucho mas alta que la media de la poblacion.
Por lo tanto: comer helados aumenta la probabilidad de sufrir quemaduras solares.
zapezi
Artículo publicado en 2015, pero que sigue de rabiosa actualidad. Deberíais rescatarlo todos los años, que diablos, todos los meses!!!.
El mal uso que se realiza de la estadística es realmente alarmante, elevando resultados estadísticos a verdades absolutas. Se hace en la prensa, se hace en las redes sociales y lo que para mi es más sangrante, se hace en la ciencia.
Ojala llegue el día en que este artículo no sea necesario.
angelito_1985
Esto lo hemos visto mucho estos meses. Cuando nos daban números de infectados a secas comparando comunidades autonomas. Cuando la rioja y madrid estaban mucho peor que el resto por cada 100.000hab y nos daban números absolutos. O sumaban madrid y catalunya para decir que teniab la mitad y madrid tenia 45% y catalunya 5%. Todo manipulacion que seguiremos viendo.
lord.firefax
"Hay verdades, mentiras y estadísticas". - Winston Churchill
"Y los políticos saben manipularlas todas". - Yo
toniweblogs
Este artículo se lo debería leer Tezanos, gran artículo
elmonch
Muy buen articulo.
Soy de los que le hierve la sangre cuando alguien usa como argumento "pues yo conozco mucha gente que..." Muestra representativa por dios!!!
anynomous
Todo es ajustable mediante el yugo de la estadística. Dices que algunos "no saben usarla", pero en realidad me temo que saben exactamente cómo usarla, pero para que digan lo que a uno le interesa. Acaban de decir los del PP que "han ganado en casi toda españa" sin que sea mentira... y estando muy lejos de la realidad desastrosa en la que han caido. Por ejemplo, vaya.
Ariasdelhoyo
Es como ahora, que nos dan cifras de infectados por covid19 y nos las comparan con Marzo. Cuando en Marzo no se hacían tantos PCR y no se podían saber los "asintomáticos". Por lo tanto, comparar directamente cifras es de gilipollas.
descartes
Creo que todo se debe aproximar de una forma mas simplista. Las comparacioens se hacen en igualdad de condiciones, no en terminos absolutos. Cuando comparas, debes asegurarte que los datos son por unidad. Porque es mas facil comprar unidades, que no grupos (de los que desconoces el contenido).
Utilizando el ejemplo del principio.
Andalucía es donde más perros se abandonan - per capita?
La Rioja es la comunidad autónoma con menor cantidad de deuda - per capita?
Revenant
La verdad es que estas cosas me agradecen lo mucho que me ha formado la ingeniería para ver tantísimas cosas obvias como esta
Y felicitaciones por el artículo, al final las estadísticas no mienten pero siempre hay que entender la magnitud
coparu
¡¡ Excelente artículo !!
Me gustaría ver más entradas con rigor como esta. Si bien a corto plazo puede que mucha gente no lo valore, a medio-largo plazo dará mucho prestigio a cualquier artículo de Xataka que será una referencia para el resto.
javier.trekstor
Coincido con bastantes opiniones de este post. La Estadistica, no miente. La estadistica es la que es, pero quien está manejando los datos es el que la manipula, presentando unos datos de una manera u otra para que no le sean tan perjudiciales, o le sean positivos para él.
La mentira, en todos los medios, o la ocultación de la verdad, se está convirtiendo en el "por defecto". Nos mienten desde pequeños con la historia de los reyes magos, que si papa noel, y los cuentos, que nunca son verdad. Si, ya se miente en todo, en la publicidad, en la radio, en la tv mas que en todos los medios, (ya que es algo visual, y facil de manipular), en las redes sociales, en la familia, en los seguros, en fin, en todo es todo, no hay sitio, lugar, empresa, etc que se diga la verdad "por defecto". Y por cierto, cuando veais escritas las palabras, Gratis, Oferta, Descuento, Ahorro, etc, siempre dudar, comprobar, mirar en otro sitio, NO OS FIEIS. Buen articulo, por cierto.
SAC
Andaluces tenían que ser (a ver que pasa)