Etiquetas

,

Artículo publicado por Monya Baker el 7 de marzo de 2016 en Nature News

Traducción realizada por Virginia Basgall

La declaración sobre la política tiene por objetivo impedir errores en la búsqueda de la certeza.

El mal uso de los valores p— una prueba común para juzgar la solidez de las pruebas científicas — está contribuyendo al aumento del número de investigaciones cuyos resultados no pueden reproducirse, según advierte la American Statistical Association (ASA) (Asociación de Estadística de Estados Unidos) en un comunicado publicado recientemente1. El grupo ha tomado la inusual decisión de emitir principios de guía en el uso del valor p, que dicen que no puede determinar si una hipótesis es verdadera o si los resultados son importantes.

Statistics

Estadística Crédito: Lendingmemo.com

Ésta es la primera vez que la ASA, organización que tiene 177 años, ha hecho recomendaciones explícitas sobre un asunto tan fundamental en estadística, dice el director ejecutivo Ron Wasserstein. Los miembros de la sociedad estaban cada vez más preocupados porque el valor p estaba siendo mal aplicado, en formas que ponen en duda la estadística en general, añade.

En su declaración, la ASA informa a los investigadores que eviten sacar conclusiones científicas o tomar decisiones de política basadas solamente en valores p. Los investigadores deberían describir no sólo los análisis de datos que produjeron resultados estadísticamente significativos, dice la sociedad, sino todas las pruebas estadísticas y las decisiones adoptadas en los cálculos. De lo contrario, los resultados pueden parecer falsamente fiables.

Véronique Kiermer, editora ejecutiva de las revistas de la Biblioteca Pública de la Ciencia, dice que la declaración del ASA da peso y visibilidad a las viejas preocupaciones sobre una confianza excesiva en el valor p. “También es muy importante ya que muestra a los estadísticos, como profesión, como un grupo comprometido con los problemas en la literatura fuera de su campo”, añade.

Valoración de la prueba

Los valores p se utilizan comúnmente para poner a prueba (y desestimar) una ‘hipótesis nula’, que en general indica que no hay diferencia entre dos grupos, o que no existe una correlación entre un par de características. Cuanto menor sea el valor p, menos probable es que un conjunto de valores observado podría ocurrir por casualidad – suponiendo que la hipótesis nula sea verdadera. Un valor p de 0,05 o menos se toma generalmente para significar que un hallazgo es estadísticamente significativo, y garantiza su publicación.  Pero eso no es necesariamente cierto, señala la declaración de la ASA.

Un valor p de 0,05 no quiere decir que haya un 95% de posibilidades de que una determinada hipótesis sea correcta. En cambio, significa que si la hipótesis nula es verdadera, y todos los demás supuestos hechos son válidos, hay una probabilidad del 5% de obtener un resultado al menos tan extremo como el observado. Y un valor p no puede indicar la importancia de un hallazgo; por ejemplo, un fármaco puede tener un efecto estadísticamente significativo sobre los niveles de glucosa en la sangre de los pacientes sin tener un efecto terapéutico. 

Giovanni Parmigiani, bioestadístico en el Instituto del Cáncer Dana Farber en Boston, Massachusetts, dice que los malentendidos acerca de qué información proporciona un valor p a menudo surgen en los libros de texto y manuales de buenas prácticas. Es necesario un cambio de rumbo desde hace mucho tiempo, añade. “Sin duda, si esto hubiera ocurrido hace veinte años, la investigación biomédica podría estar ahora en mejor posición”.

La frustración abunda

La crítica al valor p no es nueva. En 2011, unos investigadores que trataban de concienciar sobre los falsos positivos amañaron un análisis para llegar a un resultado estadísticamente significativo: escuchar la música de los Beatles rejuvenece a los estudiantes2. Más polémico, en 2015, un grupo de documentalistas publicó las conclusiones de un ensayo clínico deliberadamente de mala calidad — apoyado por un valor p robusto — para demostrar que comer chocolate ayuda a las personas a perder peso. (El artículo ya ha sido retirado.)

Pero Simine Vazire, psicóloga de la Universidad de California, en Davis, y editora de la revista Social Psychological and Personality Science, piensa que la declaración de ASA podría ayudar a convencer a los autores a divulgar todo el análisis estadístico que ejecuten. “En la medida en que las personas pueden ser escépticas, ayuda a tener estadísticos diciendo, ‘No, no puede interpretar lo valores p sin esta información”, comenta.

Medidas más drásticas, como la prohibición de la publicación de documentos que contienen valores p, instituidas por al menos una revista, podrían ser contraproducentes, dice Andrew Vickers, bioestadístico en el Memorial Sloan Kettering Cancer Center de la ciudad de Nueva York. Compara los intentos de prohibir el uso de los valores p para hacer frente al riesgo de accidentes automovilísticos al advertir a la gente que no conduzca — un mensaje que muchos en el público objetivo probablemente ignorarían. En su lugar, Vickers dice que los investigadores serían formados para “tratar a la estadística como una ciencia, y no como una receta”.

Sin embargo, una mejor comprensión del valor p no eliminará el impulso humano de utilizar la estadística para crear un nivel imposible de confianza, advierte Andrew Gelman, estadístico de la Universidad de Columbia en la ciudad de Nueva York.

“La gente quiere algo que en realidad no puede conseguir”, dice. “Quiere certeza”.

Referencias

Nature doi:10.1038/nature.2016.19503

1.- Wasserstein, R. L. & Lazar, N. A. advance online publication The American Statistician (2016).
2.- Simmons, J. P., Nelson, L. D. & Simonsohn, U. Psychol. Sci. 22, 1359–1366 (2011).

Anuncios