Estudio revela uso temerario de IA en textos sobre biomédica

"Estudio revela uso temerario de IA en textos sobre biomédica", escribe Irene Selser en #Entrevías

Si hace un año la aparición descontrolada de libros producto de chatbots literarios llevó a la corporación estadounidense Amazon a poner un tope a la autopublicación de autores en su tienda y en Kindle, ahora es el mundo de la ciencia el que hace sonar las alarmas sobre la producción en masa de artículos de investigación médica sin el debido sustento. En el caso de Amazon, la escritora de ficción romántica, Caitlyn Lynch, descubrió en 2024 que sólo 19 de los 100 libros más vendidos bajo la categoría de “Romance contemporáneo” habían sido escritos por humanos; los 81 restantes eran fruto de alguna plataforma de Inteligencia Artificial (IA) generativa.

En su edición del 21 de mayo pasado, la revista británica Nature (el semanario científico más importante del mundo), retoma un estudio publicado el 8 de mayo por su par estadounidense PLOS Biology, según el cual científicos detectaron “una explosión de artículos de investigación biomédica de baja calidad”, basados en datos disponibles públicamente.

En otras palabras, la literatura científica corre el riesgo de verse inundada de artículos que hacen afirmaciones engañosas sobre distintos temas de salud utilizando datos disponibles y fáciles de procesar a través de herramientas de IA, advierten los investigadores.

El análisis se concentró en más de 300 artículos que usaron información de la Encuesta Nacional de Examen de Salud y Nutrición de Estados Unidos (Nhanes), un conjunto de datos abiertos de historiales médicos. Los investigadores concluyeron que “todos los artículos parecían seguir un patrón similar, asociando una variable, por ejemplo, los niveles de vitamina D o la calidad del sueño, con un trastorno complejo como la depresión o una enfermedad cardíaca, ignorando que estas afecciones tienen muchos factores”. 

“Estamos experimentando una explosión repentina de tasas de publicación [de artículos] que son extremadamente formales y que fácilmente podrían haber sido generadas por grandes modelos lingüísticos”, dice el coautor del estudio Matt Spick, científico biomédico de la Universidad de Surrey en Guildford, Reino Unido. Spick y sus colegas hallaron que muchos de los artículos no resistían el escrutinio estadístico y que parecían estar escritos “con una receta”, lo cual habla de la magnitud del problema.

La encuesta Nhanes (National Health and Nutrition Examination Survey) es dirigida por el Centro Nacional de Estadísticas de la Salud (NCHS) y el primer programa data de 1960. Desde 1999 ha examinado a unas 10 mil personas cada año en diversos condados de Estados Unidos. Se trata de evaluar el estado de salud y nutricional de niños y adultos combinando entrevistas, pruebas de laboratorio y exámenes físicos para recopilar datos completos sobre la prevalencia de enfermedades, factores de riesgo y tendencias de salud. En su portal se lee que, en términos de accesibilidad, Nhanes es un conjunto de datos disponibles académicamente y listos para integrarse en sistemas de codificación o IA para su análisis, según los criterios establecidos por el Grupo de Trabajo de Estándares de Puente a la Inteligencia Artificial de los Institutos Nacionales de Salud (NIH). Sólo en 2024, se publicaron más de dos mil 200 estudios de asociación con datos de Nhanes, y más de mil 200 en lo que va de este año, según el Índice de Literatura Biomédica de PubMed, vinculada a la base de datos Medline, con más de 38 millones de referencias.

Es cierto que el drástico aumento en los últimos años de la cantidad de datos biológicos disponibles, ha derivado en más oportunidades para la investigación. Pero, como señala el estudio, esta misma disponibilidad está planteando nuevos problemas, al facilitar la producción de manuscritos “artificiales” a gran escala. 

Para los expertos responsables del estudio, el rápido crecimiento en la producción de artículos médicos sin la suficiente fundamentación aumenta los riesgos de que se introduzcan “hallazgos engañosos en el cuerpo de la literatura científica”.  Las consecuencias son una información incompleta y sesgada que puede afectar real y directamente a los sistemas de salud y a los pacientes.

Otro efecto se refiere a la velocidad con que grupos de investigación pueden presentar sus análisis a revistas especializadas, motivados más por el deseo de publicar que por aportar a la ciencia médica. Dichos artículos pueden contener falsas conclusiones o descubrimientos, lo que supone un peligro adicional para las personas enfermas. 

El estudio incluye una serie de recomendaciones a fin de evitar los “falsos descubrimientos”, entre ellas que los proveedores de datos usen claves API (identificadores únicos alfanuméricos para aplicaciones y sistemas) y números de solicitud para evitar la manipulación de datos por parte de los usuarios y la desviación de hipótesis, como utiliza por ejemplo el Biobanco del Reino Unido. Además, que los conjuntos de datos de IA biomédica tengan restricciones éticas (una licencia) y distribución adecuada con barreras contra el uso indebido. Esto también reduciría los riesgos de manipulación de datos por parte de las editoriales, como el prerregistro de modelos como OpenSafely que emplea en Londres el Servicio Nacional de Salud.

Los expertos recomiendan finalmente que las revistas especializadas y las editoriales enfaticen en la importancia de rechazar eventualmente la publicación de textos dudosos, y que consideren la designación de revisores especializados; una práctica que según los responsables del estudio ya están adoptando algunos medios.