Cómo los científicos pueden dejar de ser engañados por las estadísticas

Un emocionante artículo de Dorothy Bishop apareció en Naturaleza 584: 9 (2020); doi: 10.1038 / d41586-020-02275-8

La recopilación de datos simulados puede revelar formas comunes en las que nuestros sesgos cognitivos nos llevan por mal camino.


Se han realizado numerosos esfuerzos durante la última década para promover una investigación sólida y creíble. Algunos se centran en cambiar los incentivos, como cambiar los criterios de financiación y publicación, para favorecer la ciencia abierta sobre los avances sensacionales. Pero también se debe prestar atención al individuo. Los sesgos cognitivos demasiado humanos pueden llevarnos a ver resultados que no existen. Un razonamiento defectuoso conduce a una ciencia descuidada, incluso cuando las intenciones son buenas.

Algunas palabras sobre el autor:  

Profesora Dorothy Bishop


Profesor de Neuropsicología del Desarrollo, Departamento de Psicología Experimental; Miembro del St. John's College


El profesor Bishop investiga las alteraciones del lenguaje en los niños. En algunos casos, las dificultades del habla tienen una causa obvia, como la pérdida de audición o una afección como el síndrome de Down. En otros casos, los niños tienen especial dificultad para aprender a hablar o comprender el lenguaje sin razón aparente. El profesor Bishop ha estudiado a niños con "discapacidades específicas del habla", o SLI, que representan alrededor del 3% de la población pero tienden a ser desatendidos por los investigadores. Utilizando estudios de gemelos, estudió el componente genético de estos trastornos y trabajó con genetistas moleculares para averiguar qué genes están involucrados. Imagen fuente: Wikipedia


Cómo los científicos pueden dejar de ser engañados por las estadísticas

Se han realizado numerosos esfuerzos durante la última década para promover una investigación sólida y creíble. Algunos se centran en cambiar los incentivos, como cambiar los criterios de financiación y publicación, para favorecer la ciencia abierta sobre los avances sensacionales. Pero también se debe prestar atención al individuo. Los sesgos cognitivos demasiado humanos pueden llevarnos a ver resultados que no existen. Un razonamiento defectuoso conduce a una ciencia descuidada, incluso cuando las intenciones son buenas.

Los investigadores deben ser más conscientes de estos peligros. Así como a los científicos de laboratorio no se les permite tratar con sustancias peligrosas sin capacitación en seguridad, no se les debe permitir a los investigadores acercarse a un valor P o una medida de probabilidad estadística similar hasta que hayan demostrado que entienden lo que significa.

Todos tendemos a pasar por alto la evidencia que contradice nuestros puntos de vista. Cuando nos enfrentamos a nuevos datos, nuestras ideas preexistentes pueden llevarnos a ver estructuras que no existen. Esta es una forma de sesgo de confirmación en la que buscamos información y recordamos información que va con lo que ya estamos pensando. Puede ser adaptable: las personas deben poder eliminar información importante y actuar rápidamente para salir del peligro. Pero este filtrado puede dar lugar a errores científicos.


La medición de la carga del electrón por el físico Robert Millikan en 1913 es un ejemplo de esto. Aunque afirmó que su trabajo incluía todos los puntos de datos de su famoso experimento con gotas de aceite, sus cuadernos revelaron otros puntos de datos no reportados que habrían cambiado el valor final solo ligeramente pero le habrían dado un error estadístico mayor. Hubo un debate sobre si Millikan tenía la intención de engañar a sus lectores. Sin embargo, no es raro que las personas honestas repriman los recuerdos de hechos inconvenientes (RC Jennings Sci. Eng. Ethik 10, 639-653; 2004).

Otro tipo de limitación promueve malentendidos en probabilidad y estadística. Sabemos desde hace mucho tiempo que las personas tienen dificultades para comprender la incertidumbre asociada con muestras pequeñas (A. Tversky y D. Kahneman Psychol. Bull. 76, 105-110; 1971). Como ejemplo actual, supongamos que el 5% de la población está infectada con un virus. Tenemos 100 hospitales que analizan a 25 personas cada uno, 100 hospitales que analizan a 50 personas y 100 que analizan a 100 personas. ¿Qué porcentaje de hospitales no encuentran ningún caso y concluyen erróneamente que el virus se ha ido? La respuesta es el 28% de los hospitales que analizan a 25 personas, el 8% de los hospitales que analizan a 50 personas y el 1% de los hospitales que analizan a 100 personas. El número medio de casos detectados por los hospitales es el mismo independientemente del número de casos analizados, pero el rango es mucho mayor con una muestra pequeña.

Esta escala no lineal es difícil de comprender de forma intuitiva. Conduce a subestimar lo ruidosas que pueden ser las muestras pequeñas y, por lo tanto, a realizar estudios que carecen del poder estadístico para detectar un efecto.

Los investigadores tampoco se dan cuenta de que la importancia de un resultado, expresado en un valor P, depende críticamente del contexto. Cuantas más variables examine, más probable será que encuentre un valor "significativo" incorrecto. Por ejemplo, si prueba 14 metabolitos en busca de una asociación con un trastorno, entonces la probabilidad de que encuentre al menos un valor P por debajo de 0,05, un umbral de significación estadística comúnmente utilizado, no es 1 en 20, sino más cercana a 1. a 2.

¿Cómo podemos transmitir una comprensión de esto? Una cosa está clara: la formación convencional en estadística es inadecuada o incluso contraproducente porque podría dar al usuario una confianza inapropiada. Estoy experimentando con un enfoque alternativo: generar datos simulados que los estudiantes pueden someter a varios análisis estadísticos. Utilizo esto para transmitir dos conceptos clave.

Primero, cuando a los estudiantes se les presentan registros nulos (como números aleatorios), rápidamente descubren lo fácil que es encontrar resultados falsos que parecen estadísticamente "significativos". Los investigadores deben aprender a interpretar un valor P cuando se les pregunta: "¿A está asociado con B?" es muy diferente de la pregunta "¿Existen correlaciones para las variables A, B, C, D y E para las cuales P <0,05? La pregunta de si un metabolito en particular está asociado con una enfermedad no es lo mismo que buscar un rango de metabolitos para ver si alguno está asociado con él, este último requiere pruebas mucho más rigurosas.

Manteniendo a los cuatro jinetes de la irreproducibilidad bajo control

Los datos simulados también proporcionan información cuando las muestras provienen de dos "poblaciones" por diferentes medios. Los estudiantes aprenden rápidamente que con tamaños de muestra pequeños, un experimento puede ser inútil para revelar incluso una diferencia moderada. Una simulación de datos de 30 minutos puede sorprender a los investigadores si comprenden las implicaciones.


Los investigadores deben adquirir hábitos de por vida para evitar ser engañados por sesgos afirmativos. Las observaciones que contradicen nuestras expectativas requieren una atención especial. Charles Darwin dijo en 1876 que tenía el hábito de "cada vez que me encuentro con un hecho, una observación o un pensamiento publicado que contradice mis hallazgos generales, escribir de inmediato e inmediatamente un memorando para escribirlo: porque había establecido por experiencia era mucho más probable que los hechos y los pensamientos escaparan a la memoria que los favorables ". Yo mismo lo he visto. Al escribir reseñas de literatura, me horroricé al descubrir que me había olvidado por completo de mencionar artículos que iban en contra de mi instinto, a pesar de que los artículos no tenían fallas particulares. Ahora estoy tratando de enumerarlos.

A todos nos cuesta ver las fallas en nuestro propio trabajo; esta es una parte normal de la cognición humana. Pero si entendemos estos puntos ciegos, podemos evitarlos.

impresión