NEWSLETTER

Cuando hablar bien no significa saber: las fallas médicas de GPT-5 según Nature

Generated Image November 04, 2025 - 11_00PM

Cuando hablar bien no significa saber: las fallas médicas de GPT-5 según Nature

GPT-5 falla en más de la mitad de los escenarios clínicos difíciles: cuando la fluidez no significa comprensión
Un nuevo estudio publicado en Nature Medicine revela que aunque GPT-5 muestra avances en la reducción de alucinaciones, aún falla en más de la mitad de los escenarios clínicos difíciles. La investigación demuestra que la fluidez no siempre significa precisión o comprensión genuina. Los resultados muestran cómo el progreso en la fluidez y el razonamiento puede enmascarar debilidades persistentes: alucinaciones confiadas, desaparición de advertencias de seguridad e incluso preocupaciones de bioseguridad. En resumen, la fluidez no significa comprensión. Para mantener a los pacientes seguros, necesitamos salvaguardas más fuertes: pruebas independientes, despliegue seguro y responsabilidad clara cuando la IA entra en la clínica.

Cuando OpenAI lanzó GPT-5 en agosto de 2025, el CEO Sam Altman lo llamó "el mejor modelo que hemos construido". Las demostraciones fueron impresionantes: el sistema escribía con profundidad literaria, codificaba sitios web completos a partir de descripciones vagas, y aparentemente razonaba a través de problemas complejos con una fluidez que rozaba lo humano. La compañía afirmó que GPT-5 era 45% menos propenso a contener errores factuales que GPT-4o cuando tenía habilitada la búsqueda web, y 80% menos propenso a errores que o3 cuando usaba el modo de "pensamiento". Los números sonaban prometedores. La retórica era optimista. Pero en la medicina, los números importan de manera diferente.

Un nuevo estudio publicado en Nature Medicine en noviembre de 2025 trae noticias inquietantes que contrastan dramáticamente con el entusiasmo de marketing. Los investigadores evaluaron 11 modelos fundamentales, incluyendo GPT-5, a través de siete tareas de alucinación médica que abarcan el razonamiento médico y la recuperación de información biomédica. Los resultados son aleccionadores: aunque GPT-5 muestra mejoras sobre iteraciones anteriores, aún falla en más de la mitad de los escenarios clínicos difíciles. La fluidez impresionante del modelo enmascara fallas persistentes y peligrosas: alucinaciones confiadas, desaparición de advertencias de seguridad críticas, e incluso generación de información que plantea preocupaciones de bioseguridad.

El estudio revela algo fundamental sobre los grandes modelos de lenguaje en la medicina: ser fluido no es lo mismo que comprender. GPT-5 puede generar narrativas clínicas que suenan completamente plausibles, recitar guidelines que parecen autoritativas, y razonar a través de diagnósticos diferenciales con confianza impresionante. Pero cuando los médicos reales auditan esas recomendaciones, encuentran que entre el 64% y el 72% de las alucinaciones residuales provienen de fallas en el razonamiento causal o temporal, no de lagunas de conocimiento. El modelo sabe los hechos pero no comprende cómo se relacionan causalmente o cómo se despliegan en el tiempo. Y esa distinción puede matar pacientes.

La anatomía de las alucinaciones médicas

Los investigadores definen la alucinación médica como cualquier output generado por el modelo que sea factualmente incorrecto, lógicamente inconsistente, o no apoyado por evidencia clínica autoritativa de maneras que podrían alterar las decisiones clínicas. Esta definición es deliberadamente estricta porque en la medicina, incluso errores aparentemente menores pueden en cascada hacia daños graves. Un medicamento mal ajustado para un paciente con insuficiencia renal, una infección viral tratada con antibióticos, un diagnóstico crítico pasado por alto porque el modelo priorizó un patrón estadísticamente más común, estos no son inconvenientes menores sino riesgos directos para la seguridad del paciente.

El estudio evaluó los modelos a través de múltiples dominios médicos: práctica general, oncología, cardiología y educación médica. Los escenarios variaron desde casos relativamente directos donde las guidelines son claras hasta situaciones ambiguas que requieren juicio clínico matizado y razonamiento sobre interacciones complejas. Los modelos de propósito general como GPT-5 y Gemini-2.5 Pro consistentemente superaron a los modelos especializados médicamente, un hallazgo que desafía la intuición pero revela algo crítico sobre cómo emerge la seguridad de la IA.

Resultados comparativos entre modelos

Modelos de propósito general: Los modelos de propósito general lograron proporciones significativamente más altas de respuestas libres de alucinaciones que los modelos especializados médicamente (mediana: 76.6% vs 51.3%; diferencia = 25.2%, IC 95%: 18.7–31.3%; Mann–Whitney U=27.0, p = 0.012, rank-biserial r=-0.64).

Mejores desempeños: Los modelos de mejor desempeño como Gemini-2.5 Pro excedieron el 97% de precisión cuando se aumentaron con prompting de cadena de pensamiento (base: 87.6%), mientras que los modelos especializados médicamente como MedGemma variaron del 28.6% al 61.9% a pesar del entrenamiento explícito en corpus médicos.

GPT-5 específicamente: Aunque OpenAI afirma que GPT-5 es 45% menos propenso a errores factuales que GPT-4o, esto aún significa que el modelo alucinará aproximadamente una de cada diez veces en tareas comunes. En escenarios clínicos difíciles que requieren razonamiento causal o temporal complejo, la tasa de fallo excede el 50%.

Impacto del razonamiento de cadena de pensamiento: El prompting de cadena de pensamiento redujo significativamente las alucinaciones en el 86.4% de las comparaciones probadas después de la corrección FDR (q < 0.05), demostrando que las trazas de razonamiento explícitas permiten la autoverificación y la detección de errores. Esto sugiere que el problema no es puramente de conocimiento sino de proceso de razonamiento.

El problema del razonamiento causal y temporal

Las auditorías de los médicos confirmaron que entre el 64% y el 72% de las alucinaciones residuales provienen de fallas en el razonamiento causal o temporal en lugar de lagunas de conocimiento. Esta distinción es crucial. Un modelo puede "saber" que el medicamento A se metaboliza por el riñón y que el medicamento B es hepatotóxico, pero fallar en razonar que un paciente con enfermedad renal necesita ajuste de dosis del medicamento A o que combinar ambos medicamentos en un paciente con enfermedad hepática y renal crea riesgo sinérgico.

El razonamiento temporal es igualmente problemático. La medicina opera en el tiempo: los síntomas evolucionan, los medicamentos tienen efectos en cascada, las enfermedades progresan a través de etapas. Un modelo entrenado en texto estático puede luchar para razonar sobre estas trayectorias temporales. Podría recomendar un tratamiento apropiado para la enfermedad en etapa temprana a un paciente cuya progresión lo ha movido a la etapa avanzada. Podría fallar en reconocer que los síntomas que aparecieron después de iniciar un medicamento probablemente sean efectos secundarios relacionados con el fármaco en lugar de una nueva condición no relacionada.

Estas fallas no son aleatorias sino sistemáticas. Emergen de cómo los grandes modelos de lenguaje son entrenados: optimización de objetivos autorregresivos que priorizan la probabilidad de tokens sobre la precisión epistémica. El modelo aprende a predecir qué palabras probablemente deberían seguir basándose en patrones estadísticos en el texto de entrenamiento. Cuando esos patrones capturan relaciones causales genuinas, el modelo parece razonar. Cuando los patrones son correlaciones espurias o cuando la situación requiere razonamiento contrafactual que va más allá de las correlaciones observadas, el modelo falla.

Ejemplos documentados de recomendaciones peligrosas

Antibióticos para infecciones virales: En múltiples casos, GPT-4 y modelos posteriores han recomendado antibióticos para infecciones claramente virales. Esto ocurre porque los términos "infección" y "antibióticos" aparecen frecuentemente juntos en el texto médico. El modelo no comprende que los antibióticos son ineficaces contra virus y contribuyen a la resistencia antimicrobiana.

Fallas en el ajuste de dosis: Un estudio reportó que en un conjunto de escenarios de enfermedades infecciosas, GPT-4 sugirió planes de tratamiento dañinos o por debajo del estándar en el 16% de los casos. Por ejemplo, podría elegir un antibiótico inapropiado o fallar en ajustar la dosis de un medicamento en la insuficiencia renal, mientras que un médico capacitado sabría hacerlo.

Medicamentos contradicados: Los modelos han generado recomendaciones de medicamentos que están contraindicados para condiciones específicas del paciente, pasando por alto las interacciones medicamentosas críticas o las alergias documentadas que un médico verificaría de rutina.

Recomendaciones de diagnóstico retrasadas: En casos donde los síntomas ambiguos podrían indicar condiciones raras pero graves, los modelos frecuentemente priorizan diagnósticos estadísticamente más comunes, potencialmente retrasando el reconocimiento de emergencias médicas.

Sobreconfianza en la incertidumbre: A diferencia de los médicos humanos que dicen "no estoy seguro, necesitamos más pruebas o una consulta de especialista" cuando enfrentan la ambigüedad, los LLMs son más propensos a producir siempre una respuesta, incluso si esa respuesta es una conjetura salvaje. Esta sobreconfianza es peligrosa en la toma de decisiones clínicas, donde reconocer la incertidumbre es a menudo crítico.

Por qué los modelos especializados rinden peor

Uno de los hallazgos más contraintuitivos del estudio es que los modelos especializados médicamente como MedGemma rindieron significativamente peor que los modelos de propósito general. MedGemma, a pesar del entrenamiento explícito en corpus médicos, logró solo del 28.6% al 61.9% de precisión libre de alucinaciones, mientras que Gemini-2.5 Pro alcanzó más del 97% con el prompting de cadena de pensamiento.

Este resultado desafía la suposición común de que la especialización del dominio mejora el rendimiento. Los investigadores argumentan que revela algo fundamental sobre de dónde emerge la seguridad de la IA: no de la optimización estrecha en el conocimiento del dominio sino de las capacidades de razonamiento sofisticadas y la integración de conocimiento amplio desarrolladas durante el preentrenamiento a gran escala.

Los modelos especializados médicamente son típicamente afinados en la literatura médica, los registros clínicos y los libros de texto. Este afinamiento les da acceso a terminología específica del dominio y patrones de uso del lenguaje clínico. Pero también puede estrechar sus capacidades de razonamiento. El modelo se especializa en la correlación dentro del dominio médico a expensas del razonamiento de sentido común más amplio que los modelos de propósito general retienen.

Los modelos de propósito general como GPT-5, entrenados en corpus masivamente diversos que abarcan ciencia, humanidades, código y conversación cotidiana, desarrollan capacidades de razonamiento más generales. Cuando enfrentan un problema médico, pueden aprovechar no solo el conocimiento médico sino también principios causales más amplios, razonamiento analógico de otros dominios, y meta-conocimiento sobre cuándo es apropiada la incertidumbre. Esta amplitud resulta ser más valiosa para la seguridad que la profundidad estrecha.

La encuesta clínica: percepciones del mundo real

Para complementar sus evaluaciones técnicas, los investigadores realizaron una encuesta global de 70 clínicos que abarca 15 especialidades. Los resultados validan el impacto del mundo real de las alucinaciones médicas y revelan cuán ampliamente estos problemas se han encontrado en la práctica.

El 91.8% de los clínicos encuestados había encontrado alucinaciones médicas en su trabajo con modelos de IA. Esto no es un problema teórico confinado a ambientes de investigación sino una realidad práctica que enfrenta la mayoría de los médicos que experimentan con estas herramientas.

El 84.7% consideró que las alucinaciones eran capaces de causar daño al paciente. Esta no es paranoia infundada. Los clínicos están entrenados para reconocer cuándo la información es incorrecta o incompleta, y pueden ver cómo los errores generados por la IA podrían llevar a diagnósticos incorrectos, planes de tratamiento inapropiados o intervenciones retrasadas.

El 91.8% de los clínicos había encontrado alucinaciones médicas, y el 84.7% las consideró capaces de causar daño al paciente. Nuestros hallazgos revelan la alucinación médica como un modo de fallo impulsado por el razonamiento en lugar de un déficit de conocimiento. El bajo rendimiento de los modelos especializados médicamente a pesar del entrenamiento del dominio indica que la seguridad emerge de las capacidades de razonamiento sofisticadas y la integración de conocimiento amplio desarrolladas durante el preentrenamiento a gran escala, no de la optimización estrecha. Hallazgos clave del estudio de Nature Medicine sobre las alucinaciones médicas en los modelos fundamentales, noviembre de 2025

Los clínicos también compartieron observaciones cualitativas sobre dónde los modelos tienden a fallar. Los patrones consistentes incluyeron:

El reconocimiento de entidades nombradas en notas clínicas complejas donde las abreviaturas varían por especialidad y estilo personal de escritura. Los LLMs luchan con la variabilidad y la dependencia del contexto del lenguaje clínico.

La generación de notas clínicas que suenan plausibles pero que omiten información crítica o incluyen detalles fabricados. Un médico que revisa tales notas podría perder tiempo verificando hechos o, peor aún, podría confiar en la información incorrecta si está apresurado.

La sumarización de registros extensos donde la información relevante está dispersa en docenas de notas. Lo que es relevante para una especialidad puede ser irrelevante para otra, y los modelos luchan para navegar esta dependencia del contexto.

La desaparición de las advertencias de seguridad

Uno de los hallazgos más inquietantes del estudio, aunque no detallado exhaustivamente en los informes públicos, es lo que los investigadores llaman "desaparición de las advertencias de seguridad". Las versiones anteriores de los modelos médicos frecuentemente incluían descargos de responsabilidad explícitos: "Esto es solo información general. Consulte a un profesional de la salud para el consejo médico". Conforme los modelos se volvieron más sofisticados y fluidos, estos descargos de responsabilidad se volvieron menos prominentes o desaparecieron por completo.

Este cambio es peligroso. Cuando un modelo dice explícitamente "No soy un médico, busque atención profesional", los usuarios son recordados de las limitaciones del sistema. Cuando el modelo simplemente proporciona recomendaciones clínicas confiadas sin calificación, los usuarios son más propensos a confiar en ese consejo directamente. La fluidez aumentada crea la ilusión de competencia, y la ausencia de advertencias refuerza esa ilusión.

OpenAI incluye descargos de responsabilidad en su documentación y términos de servicio, notando que GPT-5 no reemplaza a un profesional médico. Pero estos descargos de responsabilidad están fuera del flujo de conversación. En el contexto inmediato de la interacción, donde el modelo está proporcionando consejos médicos detallados con confianza aparente, la mayoría de los usuarios no recordarán o priorizarán las advertencias legales que leyeron al registrarse.

La paradoja de la mejora: Conforme los modelos mejoran en la fluidez y en sonar como expertos, se vuelven más peligrosos precisamente porque los usuarios son más propensos a confiar en ellos. Un modelo que suena vacilante y proporciona información obviamente incompleta invita al escepticismo. Un modelo que habla con la confianza de un especialista invita a la confianza, incluso cuando esa confianza no está garantizada por la precisión subyacente. El progreso en las capacidades del lenguaje natural puede estar enmascarando fallas persistentes en el razonamiento y la comprensión.

Preocupaciones de bioseguridad

El estudio también señala preocupaciones de bioseguridad, aunque no entra en detalle específico por razones obvias. Los modelos de lenguaje grandes entrenados en la literatura científica tienen acceso a información sobre patógenos, toxinas, y otros materiales de doble uso. Un actor malicioso podría potencialmente usar estos modelos para obtener información que permita la creación de armas biológicas o toxinas.

Los investigadores responsables de IA han debatido durante mucho tiempo cómo equilibrar la apertura científica contra los riesgos de bioseguridad. Los modelos de código abierto hacen que el conocimiento científico sea accesible, lo cual es valioso para la investigación legítima. Pero también hacen que ese conocimiento sea accesible para actores malintencionados. Los modelos propietarios como GPT-5 pueden implementar filtros contra las consultas peligrosas, pero esos filtros son imperfectos y pueden ser evadidos mediante ingeniería de prompts adversaria.

El estudio de Nature no proporciona ejemplos específicos, probablemente para evitar la provisión de un plano para la evasión. Pero la mención de preocupaciones de bioseguridad señala que los riesgos de los modelos médicos van más allá del daño al paciente individual hacia amenazas potenciales de salud pública. Conforme estos modelos se vuelven más capaces, la necesidad de salvaguardas robustas contra el uso malicioso se vuelve más urgente.

Estrategias de mitigación y sus limitaciones

Los investigadores exploraron múltiples estrategias para reducir las alucinaciones médicas. La más efectiva fue el prompting de cadena de pensamiento, donde el modelo es instruido para "pensar en voz alta" y mostrar su razonamiento paso a paso antes de llegar a una conclusión. Esta técnica redujo significativamente las alucinaciones en el 86.4% de las comparaciones probadas.

¿Por qué funciona la cadena de pensamiento? Obliga al modelo a hacer explícito su proceso de razonamiento, lo cual permite la autoverificación y la detección de errores. Cuando el modelo debe articular por qué cree que un diagnóstico particular es apropiado, es más probable que note inconsistencias en su lógica. El razonamiento explícito también hace que sea más fácil para los revisores humanos identificar dónde el modelo salió mal.

Pero la cadena de pensamiento no es una panacea. Añade latencia significativa, el modelo toma más tiempo para generar respuestas porque está produciendo texto de razonamiento intermedio. También aumenta los costos computacionales. Y no elimina las alucinaciones completamente, solo las reduce. Incluso con la cadena de pensamiento, Gemini-2.5 Pro logró el 97% de precisión, no el 100%. Ese 3% de fallo residual sigue siendo inaceptable para aplicaciones médicas de alto riesgo.

Comparación de las tasas de precisión libre de alucinaciones entre diferentes tipos de modelos y configuraciones de prompting, mostrando la superioridad de los modelos de propósito general con cadena de pensamiento sobre los modelos especializados médicamente.

Otras estrategias de mitigación incluyen la generación aumentada por recuperación, donde el modelo consulta bases de datos externas de información médica verificada antes de generar respuestas. Esto puede mejorar la precisión factual pero introduce complejidad y requiere mantener bases de conocimiento actualizadas. También está el afinamiento con retroalimentación humana de expertos médicos, aunque el estudio sugiere que esto puede estrechar las capacidades de razonamiento.

Una propuesta más radical es cambiar el objetivo de entrenamiento mismo. En lugar de optimizar para la probabilidad de tokens, entrenar modelos para optimizar para la precisión epistémica y la calibración de la incertidumbre. Esto requeriría desarrollar nuevas funciones de pérdida que penalicen no solo las respuestas incorrectas sino también la sobreconfianza. El modelo debería aprender a decir "No sé" cuando es apropiado, no solo a generar siempre una respuesta plausible.

Las implicaciones regulatorias

Los hallazgos del estudio tienen implicaciones profundas para la regulación de la IA médica. Más de 1,000 productos médicos de IA han sido autorizados por la FDA, y los hospitales los están adoptando rápidamente. Pero la regulación no ha mantenido el ritmo con la rápida adopción. A diferencia de la mayoría de los otros productos regulados por la FDA, las herramientas de IA continúan evolucionando después de la aprobación conforme se actualizan o se reentrenan en nuevos datos. Esto genera la necesidad de supervisión continua, que las regulaciones actuales tienen capacidad limitada para asegurar.

En enero de 2025, el presidente Donald Trump revocó una orden ejecutiva enfocada en la seguridad de la IA, citando la necesidad de eliminar las barreras para la innovación. El mes siguiente, los despidos afectaron al personal en la división de la FDA responsable de la IA y la salud digital. Sin la supervisión adecuada, existe el riesgo de que los algoritmos médicos puedan dar recomendaciones engañosas y comprometer la atención al paciente.

Leo Anthony Celi, un investigador clínico en el MIT y coautor de un informe relacionado, señala: "Tiene que haber salvaguardas. Y creo que confiar en que la FDA proponga todas esas salvaguardas no es realista y tal vez incluso imposible". La propuesta es que los hospitales y las universidades intervengan para llenar los vacíos en la regulación, desarrollando sus propios protocolos de prueba y supervisión para los sistemas de IA que despliegan.

La brecha de supervisión regulatoria

Aprobación de dispositivos: La FDA autoriza dispositivos médicos de IA basándose en pruebas presentadas por los fabricantes. Pero estas pruebas frecuentemente usan datos curados que pueden no reflejar la diversidad y la complejidad de las poblaciones de pacientes del mundo real. Una vez aprobado, el dispositivo puede actualizarse sin re-autorización, potencialmente introduciendo nuevos modos de fallo.

Vigilancia post-mercado: El análisis de la FDA encontró que a finales de 2025 solo aproximadamente el 5% de los dispositivos de IA autorizados habían reportado eventos adversos, lo que sugiere subnotificación o monitoreo insuficiente. Sin vigilancia robusta post-mercado, los problemas pueden no ser detectados hasta que múltiples pacientes hayan sido dañados.

Fragmentación regulatoria: Diferentes países tienen diferentes estándares regulatorios para la IA médica. Un dispositivo aprobado en un país puede no cumplir con los requisitos en otro. Esta fragmentación complica el despliegue global y crea vacíos donde productos menos rigurosos pueden encontrar mercados.

La velocidad de la innovación versus la velocidad de la regulación: Los modelos de IA evolucionan mensualmente. Los procesos regulatorios toman años. Esta asimetría temporal hace que sea difícil para los reguladores mantenerse al día, especialmente con recursos limitados y expertise técnico.

El camino hacia adelante: pruebas independientes y responsabilidad

Los investigadores del estudio de Nature argumentan que mantener a los pacientes seguros requiere salvaguardas más fuertes que van más allá de las afirmaciones de marketing de las compañías de IA. Específicamente, llaman a:

Las pruebas independientes de los modelos médicos de IA por investigadores que no están afiliados a las compañías que los desarrollaron. Tales pruebas deberían usar conjuntos de datos diversos que reflejen poblaciones de pacientes del mundo real, incluidos casos de borde y escenarios difíciles donde los modelos son más propensos a fallar.

El despliegue seguro de protocolos que requieren supervisión humana de las recomendaciones de la IA, especialmente en contextos de alto riesgo. Esto podría significar requerir que un médico revise y apruebe las sugerencias de diagnóstico de la IA antes de que se actúe sobre ellas, o implementar verificaciones de dos personas para las decisiones de tratamiento informadas por la IA.

La responsabilidad clara cuando la IA entra en la clínica. Si una recomendación de la IA daña a un paciente, ¿quién es responsable? ¿El médico que confió en la recomendación? ¿El hospital que desplegó el sistema? ¿La compañía que construyó el modelo? Los marcos legales actuales no son claros, y esta ambigüedad inhibe tanto el despliegue responsable como el recurso para los pacientes dañados.

La transparencia sobre las limitaciones del modelo y las tasas de error. Las compañías deberían ser requeridas a publicar no solo métricas de rendimiento agregadas sino también análisis detallados de dónde y por qué sus modelos fallan. Esto permite a los clínicos hacer juicios informados sobre cuándo es apropiado usar la herramienta y cuándo se necesita experiencia humana adicional.

Para avanzar, humildad y aceptación

GPT-5 representa progreso genuino en las capacidades de la IA. Es más fluido, más capaz y menos propenso a errores factuales evidentes que sus predecesores. Pero el estudio de Nature Medicine es un recordatorio sobrio de que el progreso en las métricas de rendimiento no se traduce directamente en seguridad en contextos médicos del mundo real. La fluidez no significa comprensión. El razonamiento aparente no garantiza el razonamiento verdadero. Y la confianza no es un sustituto de la precisión.

Los hallazgos revelan la alucinación médica como un modo de fallo impulsado por el razonamiento en lugar de un déficit de conocimiento. Los modelos tienen acceso a vastas cantidades de información médica pero luchan para razonar causalmente sobre cómo esa información se aplica a casos específicos. Fallan en el razonamiento temporal sobre cómo las enfermedades evolucionan y los tratamientos se despliegan. Y muestran sobreconfianza, generando siempre respuestas incluso cuando la incertidumbre sería apropiada.

El bajo rendimiento de los modelos especializados médicamente a pesar del entrenamiento del dominio indica que la seguridad emerge de las capacidades de razonamiento sofisticadas y la integración de conocimiento amplio desarrolladas durante el preentrenamiento a gran escala, no de la optimización estrecha. Esto tiene implicaciones para cómo desarrollamos modelos médicos de IA: tal vez en lugar de afinar modelos en corpus médicos, deberíamos enfocarnos en mejorar las capacidades de razonamiento general y luego proporcionar acceso a conocimiento médico verificado a través de la recuperación.

Para los clínicos, el mensaje es claro: ser escéptico. Las herramientas de IA pueden ser útiles como asistentes que sugieren diagnósticos diferenciales o resumen información, pero no deberían ser confiadas para la toma de decisiones clínicas sin supervisión experta. El 91.8% de los clínicos que han encontrado alucinaciones y el 84.7% que las consideran capaces de causar daño no están siendo alarmistas, están siendo realistas sobre las limitaciones actuales de la tecnología.

Para los desarrolladores de IA, el estudio es una llamada para una humildad mayor. Las afirmaciones de marketing sobre modelos "mejores que nunca" necesitan ser templadas con reconocimiento honesto de las fallas persistentes. La fluidez impresionante de GPT-5 puede hacer que parezca más capaz de lo que es, y ese espejismo de competencia crea riesgo. Mejor comunicar las limitaciones claramente que tener a los usuarios descubrir esos límites cuando un paciente es dañado.

Para los reguladores y los formuladores de políticas, la urgencia es evidente. La adopción rápida de la IA médica está superando nuestra capacidad de asegurar que estos sistemas sean seguros y efectivos. Necesitamos marcos regulatorios actualizados que reconozcan la naturaleza evolutiva de los sistemas de IA y requieran supervisión continua, no solo aprobación de una vez. Necesitamos recursos para la vigilancia post-mercado que puedan detectar problemas antes de que se vuelvan endémicos. Y necesitamos claridad legal sobre la responsabilidad que incentive el despliegue responsable.

El futuro de la IA en la medicina no es inherentemente distópico ni utópico. Estas herramientas tienen potencial genuino para mejorar la atención al paciente: diagnosticando condiciones raras más rápido, identificando interacciones medicamentosas que los humanos podrían perder, procesando vastas cantidades de literatura médica para informar decisiones de tratamiento. Pero realizar ese potencial requiere enfrentar honestamente las limitaciones actuales y construir los sistemas de seguridad que mantendrán a los pacientes protegidos mientras la tecnología madura.

El estudio de Nature Medicine no es un argumento para abandonar la IA médica. Es un argumento para desplegarla responsablemente, con los ojos abiertos a sus fallas y los sistemas en su lugar para mitigar el daño. La fluidez no significa comprensión. Y hasta que construyamos modelos que realmente comprendan la medicina, no solo simulen comprensión, el escepticismo saludable y la supervisión humana robusta siguen siendo esenciales.

Referencias

Nature Medicine. (2025). Medical Hallucination in Foundation Models and Their Impact on Clinical Decision-Making. Artículo de investigación s41591-025-04008-8, noviembre de 2025.

arXiv. (2023). Medical Hallucination in Foundation Models and Their Impact on Healthcare. Preimpresión 2503.05777v2, 30 de noviembre de 2023 (actualizado en 2025).

Fortune. (2025). Here's everything in GPT-5 that's new and different from OpenAI's previous AI models. 6 de agosto de 2025.

LinkedIn / Olivier Elemento. (2025). GPT-5's limitations in medical scenarios: a study in Nature Medicine. Análisis de estudio de Mass General Brigham, 16 de octubre de 2025.

IntuitionLabs. (2025). An Overview of GPT-5 in Biotechnology and Healthcare. 2 de noviembre de 2025.

IntuitionLabs. (2025). Comparing Diagnostic Accuracy: LLMs vs. Physicians. 2 de noviembre de 2025.

Nature. (2025). Medicine's rapid adoption of AI has researchers concerned. Análisis publicado en PLOS Digital Health, 8 de junio de 2025.

OpenAI. (2025). Presentamos GPT-5. Anuncio oficial, 6 de agosto de 2025.

IntuitionLabs. (2025). AI Medical Devices: 2025 Status, Regulation & Challenges. 1 de noviembre de 2025.

Reddit r/LocalLLaMA. (2025). Medical/Healthcare AI Experts: Where do Clinical LLMs Mostly Fail? Discusión comunitaria sobre las fallas de los LLMs médicos.

Celi, L.A., et al. (2025). Limitations in FDA oversight of medical AI products. PLOS Digital Health, 5 de junio de 2025.

Mass General Brigham. (2025). Study on unsafe outputs from medical AI systems. Citado en múltiples fuentes, publicado en octubre de 2025.

Publicaciones Recientes

Generated Image November 04, 2025 - 10_36PM

Google quiere construir centros de datos de IA en el espacio: Project Suncatcher lanzará TPUs en órbita solar para 2027

  Google está iniciando un nuevo moonshot de investigación llamado Project Suncatcher para escalar algún día el
Leer Más
Generated Image November 04, 2025 - 9_45PM

El teorema del centauro: un diálogo con GPT-5-Pro en la frontera de las matemáticas

La historia de las matemáticas está poblada de figuras solitarias. La imaginamos como un acto de pura introspección,
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí