Un estudiante universitario con un chatbot superó a equipos de investigación médica

Más rápido que cien científicos: cómo los modelos de lenguaje están reescribiendo la medicina de datos

Un experimento diseñado para predecir el parto prematuro acaba de demostrar que las herramientas de generación de texto pueden construir modelos de análisis médico en minutos, superando en velocidad y a veces en precisión a equipos de especialistas que tardaron meses. La ciencia biomédica nunca volverá a ser exactamente lo mismo.

Por el equipo editorial | 17 de febrero de 2026

El laboratorio no olía a reactivos ni a papel impreso. No había pizarrones cubiertos de ecuaciones ni reuniones interminables de coordinación entre especialistas. Había, en cambio, una pantalla y una línea de texto: una instrucción breve, técnicamente precisa, dirigida a un sistema de lenguaje generativo. En cuestión de minutos, el código empezaba a ejecutarse. Los modelos predictivos tomaban forma. Y lo que equipos de científicos habían tardado meses en construir quedaba replicado, y a veces mejorado, en una fracción del tiempo.

Eso es, en esencia, lo que acaba de publicar en la revista Cell Reports Medicine un grupo de investigadores de la Universidad de California en San Francisco (UCSF) y la Wayne State University. El estudio, liderado por Marina Sirota, profesora de Pediatría y directora interina del Bakar Computational Health Sciences Institute, pone sobre la mesa una pregunta que la comunidad científica venía esquivando: si las herramientas de generación de texto ya pueden escribir código funcional para analizar datos biomédicos complejos, qué rol le queda al data scientist humano en el ciclo de descubrimiento médico.

La respuesta, por ahora, no es binaria. Pero lo que el experimento reveló sacude los cimientos de cómo se hace ciencia con datos.

El desafío que tardó dos años en publicarse, y que la máquina resolvió en seis meses

Todo comenzó con una pregunta que tiene consecuencias reales para millones de familias: qué patrones en el microbioma vaginal de una mujer embarazada permiten anticipar un parto prematuro. Cada año, alrededor de 11% de los nacimientos en el mundo ocurren antes de las 37 semanas de gestación. Solo en Estados Unidos, cerca de mil bebés nacen prematuros cada día. Las consecuencias van desde problemas cognitivos hasta la muerte neonatal, y la ciencia todavía no comprende del todo qué desencadena ese proceso.

Para atacar esa ignorancia, Sirota y su equipo habían organizado años antes un desafío científico abierto llamado DREAM, siglas de Dialogue on Reverse Engineering Assessment and Methods. La dinámica es la de una competencia internacional: grupos de investigadores de todo el mundo reciben los mismos datos y tienen un plazo para construir los mejores algoritmos predictivos posibles. En la edición sobre el microbioma y el parto prematuro, participaron más de cien equipos. Tardaron tres meses en completar la tarea. Pero compilar los resultados, integrarlos y publicarlos llevó casi dos años adicionales.

El contraste con lo que vino después es perturbador. Cuando el mismo equipo repitió el ejercicio utilizando ocho herramientas de lenguaje generativo como ChatGPT, el proceso completo, desde la concepción hasta la presentación del artículo a una revista científica, tomó seis meses. No decenas de grupos coordinados desde distintos continentes, sino prompts cuidadosamente redactados y sistemas que escribían código estadístico a partir de instrucciones en lenguaje natural.

"Estas herramientas podrían aliviar uno de los mayores cuellos de botella en ciencia de datos: construir los pipelines de análisis. La aceleración no podría llegar en mejor momento para los pacientes que necesitan ayuda ahora." Marina Sirota, profesora de Pediatría, UCSF, y directora interina del Bakar Computational Health Sciences Institute

El experimento no se limitó al microbioma. Los investigadores replicaron también los otros dos desafíos DREAM liderados por Adi L. Tarca, profesor del Center for Molecular Medicine and Genetics de Wayne State: uno orientado a analizar muestras de sangre y tejido placentario para estimar con mayor precisión la edad gestacional, un dato clínico crítico que determina el tipo de atención que recibe la mujer durante el embarazo. En ese frente, los resultados fueron igualmente reveladores.

Cuando un estudiante universitario supera a un equipo de expertos

Uno de los hallazgos más llamativos del estudio no tiene que ver con los modelos más sofisticados ni con los servidores más potentes. Tiene que ver con Reuben Sarwal, estudiante de maestría en UCSF, y Victor Tarca, un estudiante de secundaria. Armados con acceso a herramientas de generación de texto y los datos del desafío DREAM, los dos construyeron modelos de predicción funcionales en minutos. Tareas que a un programador experimentado le habrían llevado entre horas y días quedaron resueltas antes de que terminara una reunión de trabajo.

No es que los modelos hicieran todo solos. Solo cuatro de los ocho sistemas evaluados produjeron código utilizable. Los demás generaron salidas incorrectas o directamente inutilizables. Pero los que funcionaron bien lo hicieron con una fluidez que los investigadores no anticipaban. La clave, según el propio Tarca, estuvo en la calidad del prompt: instrucciones breves pero altamente especializadas que guiaban al sistema hacia el tipo de análisis correcto, sin necesidad de supervisión constante.

        Dato clave del estudio: Solo 4 de los 8 modelos de lenguaje evaluados produjeron código funcional. Pero los que lo hicieron igualaron o superaron en precisión a los mejores equipos humanos del desafío DREAM, completando en minutos tareas que a programadores expertos les llevaban días. El proyecto completo, desde el diseño hasta la publicación, tomó 6 meses frente a los casi 3 años que demandó el proceso original con participación humana exclusiva.
    

El resultado abre una reflexión que trasciende la anécdota: si barreras hasta ahora tecnológicas, como la necesidad de dominar lenguajes de programación estadística o de formar grandes equipos de especialistas, pueden reducirse a la redacción de un prompt bien construido, la ciencia biomédica podría democratizarse de formas que hasta hace poco parecían improbables. Investigadores con buenas preguntas pero formación técnica limitada tendrían acceso a capacidades analíticas que antes requerían años de entrenamiento o colaboraciones institucionales costosas.

Adi Tarca lo expresó con precisión: gracias a estas herramientas, los investigadores con menor experiencia en ciencia de datos no siempre necesitarán formar grandes colaboraciones ni pasar horas depurando código. Podrán concentrarse en formular las preguntas correctas. En medicina, esa distinción, entre quien sabe qué preguntar y quien sabe cómo procesar la respuesta, tiene consecuencias clínicas concretas.

Comparación entre el rendimiento de equipos humanos y modelos de lenguaje generativo en los desafíos DREAM de predicción de parto prematuro: tiempo de desarrollo (meses) versus precisión predictiva (AUROC). Los sistemas de lenguaje generativo lograron resultados comparables a los mejores equipos humanos en una fracción del tiempo total.

Lo que la máquina todavía no puede hacer

Sería tentador leer estos resultados como el anuncio de un relevo. No lo son. Los propios autores del estudio son explícitos: los investigadores humanos siguen siendo indispensables, y no solo para supervisar los errores que los modelos cometen. La capacidad de hacer las preguntas correctas, de decidir qué datos vale la pena recolectar, de interpretar resultados en el contexto clínico y social de una comunidad real, esas competencias no emergen de un prompt.

La literatura científica más reciente refuerza ese matiz con fuerza. Un estudio publicado en noviembre de 2025 en el New England Journal of Medicine, liderado por Liam McCoy, residente de neurología en la Universidad de Alberta, mostró que los grandes modelos de lenguaje siguen cometiendo errores significativos en el razonamiento clínico dinámico, esa capacidad que los médicos desarrollan con la experiencia para ajustar una hipótesis diagnóstica cuando la información del paciente cambia en tiempo real. Los sistemas evaluados tendían a anclarse en la primera hipótesis plausible y resistían la actualización, un comportamiento que en medicina puede costar vidas.

La distinción es técnicamente precisa: los modelos de lenguaje son herramientas formidables para reconocer patrones en grandes volúmenes de datos estructurados. Donde fallan es en el tipo de razonamiento que requiere incertidumbre, intuición y navegación de información incompleta o contradictoria. Un algoritmo puede predecir el riesgo de parto prematuro con base en mil muestras de microbioma. Pero no puede sentarse frente a una paciente, leer su historia de vida y decidir que el dato más relevante para ese caso particular es uno que no está en ninguna planilla.

El panorama más amplio: qué dice la evidencia acumulada

Diagnóstico comparado: Una revisión sistemática publicada en Nature npj Digital Medicine en marzo de 2025, que incluyó decenas de estudios, encontró que los modelos generativos son significativamente inferiores a los médicos expertos en diagnóstico diferencial complejo, con una diferencia de precisión de hasta 15,8 puntos porcentuales a favor de los especialistas humanos.

Empatía textual: Un meta-análisis publicado en arXiv en febrero de 2026, que sintetizó 15 estudios comparativos, reveló que en entornos de texto, los chatbots de lenguaje obtienen calificaciones de empatía significativamente más altas que los profesionales de salud humanos, con una diferencia estandarizada de 0,87 puntos a favor de los sistemas automatizados.

Asistencia clínica: Investigadores de Stanford publicaron en febrero de 2025 en JAMA Network Open que médicos asistidos por sistemas de lenguaje generativo igualaron el rendimiento del modelo solo, superando a colegas que trabajaban sin ese apoyo en tareas de razonamiento clínico-gerencial.

Lo que el estudio de UCSF y Wayne State agrega a ese mosaico es una dimensión que hasta ahora había recibido menos atención: la capacidad de estos sistemas no como asistentes del médico individual, sino como aceleradores del proceso científico colectivo. No se trata de reemplazar al radiólogo frente al escáner, sino de comprimir el tiempo entre una pregunta de investigación y su respuesta, reducir las barreras de entrada a la ciencia computacional y liberar la energía intelectual de los investigadores para tareas que los algoritmos no pueden ejecutar.

El propio diseño del experimento subraya esa idea. La competencia DREAM no solo sirvió para demostrar que los sistemas podían igualar a los equipos humanos en rendimiento predictivo. Sirvió también para revelar que el cuello de botella real en ciencia de datos biomédicos no está en la inteligencia de los investigadores ni en la calidad de los datos: está en el tiempo y los recursos que toma convertir esos datos en código funcional. Si esa conversión puede automatizarse con fiabilidad, lo que queda es la parte más valiosa, y más exclusivamente humana, del proceso científico.

Marina Sirota, cuya trayectoria de casi veinte años en bioinformática traslacional y más de 170 publicaciones científicas la ubican como una de las voces más autorizadas del campo, lo sintetizó con una imagen directa: estas herramientas podrían aliviar uno de los mayores cuellos de botella en ciencia de datos. La velocidad que ofrecen no es un lujo metodológico; es una urgencia clínica. Cada año que tarda en desarrollarse un test de predicción de parto prematuro es un año en que miles de bebés nacen sin el nivel de atención que podrían haber recibido.

El experimento publicado en Cell Reports Medicine no cierra ningún debate. Lo abre con una precisión que los debates habituales sobre tecnología médica raramente alcanzan. No pregunta si la máquina reemplazará al científico. Pregunta qué ocurre cuando la máquina le devuelve al científico el tiempo que antes se consumía en tareas que no requerían inteligencia, sino paciencia y horas. La respuesta a esa pregunta no está en un servidor. Está en lo que los investigadores decidan hacer con el tiempo que ahora tienen.

Referencias

Sirota, Marina et al. "Benchmarking Large Language Models for Predictive Modeling in Biomedical Research With a Focus on Reproductive Health." Cell Reports Medicine, 2026. DOI: 10.1016/j.xcrm.2026.102594.

Golob, Jonathan L. et al. "Microbiome preterm birth DREAM challenge: Crowdsourcing machine learning approaches to advance preterm birth research." Cell Reports Medicine, 2024. PMC10829755.

McCoy, Liam et al. "Clinical reasoning performance of large language models." New England Journal of Medicine, noviembre 2025.

Systematized review: "A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians." Nature npj Digital Medicine, marzo 2025. DOI: 10.1038/s41746-025-01543-z.

Stanford Medicine / JAMA Network Open: "Study suggests physicians make better decisions with help of AI chatbot." Febrero 2025.

arXiv:2602.05628 - "AI chatbots versus human healthcare professionals" — meta-análisis de empatía en texto, febrero 2026.

Bakar Computational Health Sciences Institute, UCSF. Perfil institucional de Marina Sirota, PhD.

Un estudiante universitario con un chatbot superó a equipos de investigación médica