En el Hospital General, un piloto silencioso intenta ahorrar minutos en guardia. Se trata del asistente clínico del hospital, un sistema de apoyo a la decisión que lee la historia electrónica, resume antecedentes y redacta un borrador de conducta para el profesional de turno. No prescribe ni firma indicaciones. Sugiere. En una madrugada de alta demanda, el asistente propuso un esquema terapéutico que incluía un suplemento sin respaldo para un paciente con comorbilidades. La recomendación no saltó como un disparate. Estaba insertada en un párrafo impecable, rodeada de indicaciones correctas. El comité de adopción revisó el registro y se encontró con una pregunta incómoda: cómo un sistema que rinde bien en exámenes estandarizados puede deslizar consejos que, en la práctica, aumentan el riesgo clínico.
Qué mostró el hallazgo
Un estudio reciente demostró que los modelos de lenguaje entrenados para tareas médicas son vulnerables a un tipo particular de contaminación. Cuando una fracción minúscula del corpus de entrenamiento incorpora desinformación redactada con verosimilitud, el modelo aprende asociaciones falsas que pueden aflorar en la redacción de planes de manejo. Lo llamativo es que sus puntajes en baterías populares como MedQA o PubMedQA pueden permanecer estables. En apariencia, nada se rompe. En el detalle, la tasa de respuestas que incluyen sugerencias dañinas sube lo suficiente para inquietar a cualquiera que piense en despliegues hospitalarios.
La mecánica del problema es prosaica. La mayoría de los entrenamientos se apoya en grandes compilaciones de texto que combinan literatura científica, guías, repositorios confiables y material web capturado con criterios de filtrado imperfectos. En ese entorno, una campaña pequeña que siembra páginas bien escritas a favor de una intervención sin evidencia puede escalar. No hace falta acceso a pesos ni a una infraestructura gigantesca. Basta con entender qué conjuntos de datos suelen usar los equipos y cómo circula la información entre proyectos. La falsedad se filtra a un conjunto, luego aparece resumida en otro, más tarde se duplica en un tercero. Con el tiempo, se convierte en ruido de fondo.
En pruebas controladas, los investigadores inyectaron una cantidad ínfima de texto envenenado y midieron dos cosas. Por un lado, el desempeño del modelo en preguntas de opción múltiple. Por otro, el comportamiento en tareas abiertas, como redactar un plan terapéutico o priorizar estudios según perfil del paciente. El contraste fue claro. Los números en exámenes no alertaron sobre el problema. En cambio, el análisis de salidas abiertas evidenció un aumento en recomendaciones que contradicen guías o que omiten contraindicaciones relevantes. Lo que importaba no era la nota global, sino el patrón de riesgo en escenarios realistas.
Esa diferencia no sorprende a quienes trabajan en evaluación clínica. Un examen acota el espacio de respuesta y premia el reconocimiento de hechos. La práctica demanda prudencia contextual y manejo de incertidumbre. Un modelo puede saber que un antibiótico es de primera línea para una neumonía comunitaria y, sin embargo, recomendarlo en un paciente con alergia documentada si la redacción del caso no enfatiza ese dato. La contaminación en entrenamiento no convierte al sistema en temerario de golpe. Solo eleva probabilidades en el margen. Pero en hospitales saturados, los márgenes son la diferencia entre un alta segura y una complicación.
La industria adoptó bancos de preguntas como referencia porque ofrecen comparabilidad y una vara objetiva. Son útiles para detectar progreso general. No sirven como única barrera de seguridad. El problema de base es que la clínica no se parece a un cuestionario. Se parece a una conversación con ruido, a historias incompletas, a pacientes polimedicados que llegan con bolsitas de pastillas y a médicos que leen rápido y confían en resúmenes. Si la evaluación se queda en precisión promedio, hay un punto ciego. Un sistema puede lucir competente y, sin embargo, exhibir fallas raras pero peligrosas en condiciones específicas, como embarazo, insuficiencia renal o combinaciones de fármacos que exigen ajustes finos.
Esto ya está forzando cambios. Algunos equipos comenzaron a incorporar escenarios sintéticos con comorbilidades, instrucciones contradictorias y datos faltantes. Otros añadieron métricas que miden daño potencial, no solo aciertos. El avance es saludable, aunque insuficiente si no se refuerza el origen del problema. La curaduría del corpus es una decisión estratégica. Para herramientas de salud, la mezcla de datos debe inclinarse hacia repositorios confiables, guías actualizadas y conocimiento estructurado. Las compilaciones masivas sin filtros sirven como punto de partida, no como columna vertebral.
La psicología del trabajo hospitalario juega, además, un rol silencioso. Cuando un texto aparece con tono neutro, organiza la información con claridad y cita conceptos con precisión, el sesgo de autoridad se dispara. Si el sistema redacta como un médico seguro, una oración dudosa puede pasar sin resistencia, sobre todo en guardias largas y con equipos rotados. Por eso, no alcanza con un cartel que recuerde que la herramienta es de apoyo y requiere revisión humana. Hace falta diseñar la interacción para que la supervisión ocurra de verdad, con advertencias visibles y fricciones deliberadas en puntos de riesgo.
Qué hacer ahora mismo
El estudio no se limita a señalar el agujero. Presenta una mitigación práctica: interceptar la salida del sistema y contrastar sus afirmaciones con grafos de conocimiento biomédico que codifican relaciones fármaco-fármaco, indicaciones aprobadas, contraindicaciones y niveles de evidencia. Cuando el texto generado propone algo que choca con ese mapa estructurado, el verificador lo marca. La herramienta puede degradar la confianza, solicitar confirmación o reemplazar el pasaje por una alerta con referencias normativas. En experimentos, este filtro detectó gran parte del contenido potencialmente dañino con buena relación entre aciertos y falsos positivos y sin hardware prohibitivo.
Este cinturón de seguridad no exime a los equipos de revisar su cadena de datos. Minimizar la dependencia de rastreos web sin control, mantener listas blancas y negras de fuentes, documentar procedencia y auditar la mezcla de corpora son requisitos, no accesorios. En organizaciones sanitarias, la adopción debería incluir un programa de validación propio con dos capas. La primera, de escritorio, para medir precisión y estabilidad frente a cambios. La segunda, de simulación clínica, para evaluar el sistema en historias completas con signos vitales, alergias y medicación concomitante. Todo con telemetría que permita rastrear por qué la herramienta sugirió lo que sugirió y con capacidad de retroceder versiones ante deriva.
La coordinación con reguladores será inevitable. A medida que estas herramientas se integran en flujos de trabajo sensibles, crece la expectativa de documentación sobre fuentes, mecanismos de mitigación y resultados de pruebas orientadas a seguridad. Lo razonable es que la trazabilidad de datos y la existencia de filtros automáticos pasen de buenas prácticas a requisitos formales. En paralelo, los hospitales deberían compartir incidentes de manera anonimizada para acelerar el aprendizaje colectivo. La opacidad protege reputaciones a corto plazo y perpetúa riesgos a largo plazo.
También conviene ajustar el alcance. En el piloto del Hospital General, el equipo decidió que el asistente deje de proponer planes completos y se enfoque en recordatorios de guías, banderas rojas por interacciones y síntesis de antecedentes. El cambio redujo el espacio de daño y mantuvo el valor operativo. Los residentes siguieron recibiendo ayuda para no olvidar puntos críticos y el jefe de guardia recuperó confianza. El asistente dejó de escribir recetas tentativas y pasó a ofrecer contexto, citas y advertencias. Menos brillo, más seguridad.
Hay una lectura industrial que vale traer a la superficie. Los modelos abiertos o de uso amplio facilitan la reutilización y la investigación independiente, pero también amplifican los efectos de una contaminación upstream si esa contaminación se propaga a múltiples implementaciones. Esto no implica cerrar ecosistemas ni fetichizar cajas negras. Implica elevar el estándar de procedencia y publicar reportes de integridad del corpus con la misma seriedad que las métricas de desempeño. La transparencia en qué entra y en qué proporción importa tanto como el tamaño del modelo o el número de tokens.
La promesa de estas herramientas sigue en pie. Pueden ayudar a priorizar, resumir, recordar. El requisito es acotar su territorio y blindar el camino que recorre la información desde la web hasta el texto que lee un médico. Si la alimentación está limpia, la evaluación mide daño concreto y la salida pasa por filtros automáticos, el conjunto se vuelve razonablemente seguro. No perfecto. Suficiente para convivir con la presión del hospital sin añadir riesgos invisibles.
En el fondo, la pregunta que vale es simple. No es si un modelo acierta preguntas, sino si, en una guardia saturada, evita cruzar líneas rojas. Para responderla, hay que mirar menos el examen y más la tubería. Ese es el trabajo que define si el médico digital ayuda o estorba.
Referencias:
- Nature Medicine, “Medical large language models are vulnerable to data-poisoning attacks” (8 de enero de 2025): https://www.nature.com/articles/s41591-024-03445-1
- MedQA (USMLE) benchmark: https://github.com/jind11/MedQA
- PubMedQA: https://pubmedqa.github.io/
- MMLU: https://arxiv.org/abs/2009.03300
- UMLS Metathesaurus: https://www.nlm.nih.gov/research/umls/index.html