Más allá de ChatGPT: la IA médica que redefine los ensayos clínicos

31913150-39f8-438a-a1f3-8b3af404e5d9

Más allá de ChatGPT: la IA médica que redefine los ensayos clínicos

Diagnóstico profundo: cómo una IA médica superó a ChatGPT en ensayos clínicos reales

Durante años, la promesa de la inteligencia artificial en medicina se presentó como un horizonte difuso: herramientas automatizadas, sistemas de diagnóstico asistido, chatbots empáticos, procesamiento acelerado de imágenes. Pero a pesar del entusiasmo generalizado y las inversiones multimillonarias, pocos desarrollos habían logrado probar, en entornos clínicos reales y con datos reales de pacientes, que podían superar a los modelos de lenguaje generalistas como ChatGPT. Hasta ahora.

El 23 de junio de 2025, la firma canadiense NetraMark publicó un estudio preliminar que podría cambiar el curso del desarrollo de IA médica especializada. Su sistema «NetraAI» logró superar de forma sistemática a modelos generalistas de última generación como ChatGPT, DeepSeek y otros competidores de referencia, en una tarea crítica: la identificación de subpoblaciones clínicas dentro de conjuntos de datos reales de ensayos médicos. ¿Qué significa esto en la práctica? Que esta IA puede detectar patrones ocultos en cohortes de pacientes con enfermedades complejas (como esquizofrenia, depresión resistente o cáncer de páncreas) con una precisión que los modelos convencionales no alcanzan.

Para entender la magnitud de este avance, hay que mirar más allá del titular. Lo que está en juego no es simplemente una comparación de métricas entre modelos, sino el posible salto de paradigma en cómo se diseñan, interpretan y optimizan los ensayos clínicos en la medicina contemporánea. Si se valida lo que NetraMark afirma, estaríamos ante una tecnología que no solo acelera la investigación biomédica, sino que también abre la puerta a tratamientos más personalizados, menos costosos y con mayor tasa de éxito desde su fase de prueba.

Un desafío estructural: los ensayos clínicos como laberinto estadístico

Para quienes no están familiarizados con el funcionamiento interno de la medicina experimental, conviene repasar el problema que NetraAI pretende resolver. Los ensayos clínicos, en particular los de fases II y III, consisten en probar la eficacia y seguridad de nuevas moléculas o tratamientos en poblaciones humanas con características clínicas específicas. Sin embargo, incluso cuando se seleccionan criterios de inclusión rigurosos, los pacientes involucrados no son homogéneos. Hay diferencias en genética, microbiota, estilo de vida, comorbilidades, respuesta inmunológica, metabolización de fármacos. Estas diferencias muchas veces no se reflejan en los análisis estadísticos tradicionales.

El resultado es que muchos ensayos fallan. No porque la droga no funcione, sino porque funciona solo para un subconjunto de los pacientes. Y ese grupo (esa “subpoblación responsiva”) queda enterrado en el promedio de los datos. Detectar a tiempo esa señal oculta, separar a los pacientes que verdaderamente responden de los que no, puede ser la diferencia entre un tratamiento descartado o aprobado. Pero para hacerlo, se necesitan modelos que no solo analicen datos, sino que descubran estructuras clínicas latentes, sin imponer categorías predefinidas.

Aquí es donde NetraAI parece brillar.

NetraAI: anatomía de una IA especializada

A diferencia de los modelos de lenguaje generalistas, entrenados para responder preguntas de propósito amplio y realizar tareas de razonamiento verbal, NetraAI fue desarrollado desde cero con una arquitectura orientada a problemas clínicos. Su funcionamiento se basa en una combinación de enfoques no tradicionales: análisis topológico, descomposición semántica de registros médicos, inferencia probabilística en grafos de relaciones clínicas, y una capa de interpretación que permite no solo entregar resultados, sino explicar por qué los entrega.

Según el informe publicado, NetraAI se entrenó y evaluó sobre datasets clínicos reales, incluyendo estudios sobre:

  • Esquizofrenia refractaria: pacientes que no responden a antipsicóticos convencionales.

  • Trastorno depresivo mayor con resistencia farmacológica.

  • Cáncer de páncreas metastásico, uno de los más letales y difíciles de tratar.

En cada uno de estos casos, NetraAI fue capaz de identificar subgrupos clínicamente coherentes que respondían de forma significativamente distinta a los tratamientos, logrando una tasa de descubrimiento de subpoblaciones hasta 7 veces superior a la de modelos como ChatGPT, cuando estos eran usados como base para análisis semántico de historias clínicas.

Lo notable no es solo el rendimiento, sino la interpretabilidad. En lugar de entregar clusters opacos o etiquetas estadísticas, NetraAI ofrecía descripciones claras de cada subgrupo: por ejemplo, «pacientes con antecedentes de tabaquismo, mutación X en el gen KRAS, y niveles bajos de marcador CA 19-9 presentan mayor tasa de respuesta a la droga experimental Y». Esta capacidad de traducir el hallazgo en lenguaje clínico operativo es lo que convierte al modelo en una herramienta usable, y no solo en una caja negra académica.

¿Por qué ChatGPT y compañía no logran lo mismo?

La comparación con ChatGPT (y con otros modelos similares como Claude, Gemini o DeepSeek) no es trivial. Todos ellos han demostrado en múltiples benchmarks su capacidad para resumir textos médicos, responder preguntas clínicas, traducir artículos especializados, e incluso explicar protocolos quirúrgicos. Pero su diseño sigue siendo, en esencia, lingüístico. Procesan tokens, identifican patrones en el discurso, y aplican razonamiento basado en texto. No están optimizados para interpretar bases de datos numéricas, correlaciones cruzadas, y estructuras latentes entre variables clínicas complejas.

Además, la mayoría de los modelos generalistas carecen de validación específica en contextos clínicos reales. Pueden ofrecer información general precisa, pero no han sido entrenados con datasets sensibles, ni evaluados con criterios regulatorios exigentes. La diferencia entre “dar una buena explicación” y “detectar patrones clínicamente relevantes” es enorme. NetraAI fue construido con ese segundo objetivo como eje central.

Por eso, aunque un modelo como ChatGPT pueda explicar los síntomas de un paciente, no tiene por qué ser capaz de detectar que un subgrupo de pacientes con esos síntomas responde mejor a un fármaco experimental que aún está en estudio. Esa tarea requiere más que lenguaje: requiere arquitectura algorítmica especializada, acceso controlado a datos médicos y, sobre todo, una forma distinta de aprender.

Lo que está en juego: personalización, eficiencia y equidad clínica

Si el rendimiento de NetraAI se sostiene en pruebas posteriores y pasa las etapas regulatorias, estaríamos ante una herramienta capaz de transformar radicalmente la forma en que se interpretan los datos de ensayo clínico. Hoy, las farmacéuticas y los centros de investigación enfrentan una especie de dilema estructural: invertir cientos de millones de dólares en estudios que pueden fracasar por no haber identificado a tiempo a quiénes realmente beneficia una molécula.

La posibilidad de descubrir de antemano qué tipo de paciente va a responder, y por qué, permite reducir significativamente los costos de desarrollo, acortar los tiempos de aprobación, y diseñar tratamientos más dirigidos, eficaces y con menores efectos adversos. En lugar de aplicar la lógica de “una droga para todos”, se pasa a una lógica de “una droga para este perfil de paciente”. Y eso no solo mejora la medicina: mejora también la economía de la innovación.

Además, este tipo de análisis permite rescatar tratamientos que, en condiciones normales, habrían sido descartados por no demostrar eficacia promedio. Como explica el CEO de NetraMark, Jean-François Hétu: “Lo que llamamos fracaso clínico muchas veces es solo una lectura ciega del promedio. Hay eficacia oculta si sabemos dónde mirar”. Esa frase resume el núcleo conceptual del nuevo paradigma: no buscar más datos, sino mirar de otra forma.

Pero la implicancia no es solo técnica o económica. También es ética.

En ensayos clínicos convencionales, hay subgrupos que históricamente han sido subrepresentados o mal categorizados: mujeres, personas racializadas, adultos mayores, poblaciones rurales o con comorbilidades. Una IA que permita identificar con precisión las respuestas diferenciales de estas poblaciones puede contribuir a una medicina más equitativa, en la que el sesgo estructural disminuya y el acceso a tratamientos más adecuados se amplíe. No es solo eficiencia: es justicia clínica.

Un nuevo interlocutor para la FDA y los entes regulatorios

Otro punto relevante del estudio es que NetraAI no pretende reemplazar a médicos, ni automatizar la decisión clínica final, sino convertirse en un interlocutor técnico confiable para quienes evalúan terapias desde el marco regulatorio. La gran mayoría de los fármacos que llegan a fase III han pasado por filtros exhaustivos, pero no siempre disponen de herramientas sólidas para justificar segmentaciones de pacientes en sus resultados. Y los entes regulatorios, como la FDA en EE.UU. o la EMA en Europa, exigen evidencias cada vez más precisas.

Aquí es donde una IA explicativa y transparente (capaz de mostrar no solo que un subgrupo responde, sino cómo se construye estadística y clínicamente ese subgrupo) se vuelve valiosa. No como sustituto, sino como extensión analítica de los equipos de investigación y de las agencias que deben proteger a la población sin entorpecer la innovación.

La presentación del informe en arXiv incluye ejemplos detallados en los que NetraAI logró rescatar valor clínico en ensayos originalmente calificados como fallidos, al reinterpretar los datos con una lógica basada en distribución de características y respuesta fenotípica específica. Si estas capacidades se confirman, podríamos estar viendo nacer una nueva categoría de software médico evaluativo: no sólo un asistente, sino un “co-analista” algorítmico con poder predictivo y explicativo.

El dilema de los modelos fundacionales: ¿generalistas o especializados?

La comparación entre NetraAI y ChatGPT no sólo pone en tensión dos productos, sino dos formas de pensar el desarrollo de inteligencia artificial. Una, la del modelo generalista, apuesta a que un solo sistema pueda adaptarse a múltiples dominios si se le entrena con suficiente escala y se le afina con instrucciones. La otra, la del modelo vertical, parte del supuesto contrario: que la especialización permite un rendimiento superior en contextos críticos, incluso si se sacrifica amplitud.

Ambas estrategias tienen valor. Pero lo que demuestra el caso NetraMark es que, en áreas donde las consecuencias del error son altas (como la medicina), la especialización no es una opción ideológica, sino una necesidad funcional. Un modelo como ChatGPT puede redactar artículos médicos con soltura, pero eso no lo convierte en un motor de descubrimiento clínico. La diferencia no está solo en lo que puede escribir, sino en lo que puede detectar, correlacionar y prever.

Además, el entrenamiento de un modelo generalista con datos clínicos es éticamente complejo. Implica acceso a historias médicas, consentimientos informados, y cumplimiento con normativas como HIPAA o GDPR. En cambio, NetraAI fue diseñado desde el principio con una arquitectura que respeta esos marcos, trabaja con datos anonimizados y se entrena en contextos supervisados por bioeticistas y especialistas clínicos. Su diseño no es un afterthought, sino un núcleo fundacional.

De la prueba al hospital: escenarios de adopción real

A pesar del entusiasmo legítimo que genera el desempeño de NetraAI, el trayecto desde un estudio publicado hasta su integración en hospitales, laboratorios y centros de investigación es largo. En la industria médica, ninguna innovación se implementa sin pasar por múltiples filtros: validación externa, compatibilidad con sistemas existentes, capacitación del personal, aprobación ética, aceptación regulatoria, y adaptación institucional. Pero hay razones para pensar que el sistema desarrollado por NetraMark podría sortear estos obstáculos más rápido que otras IAs médicas recientes.

Primero, porque su diseño es modular y explicativo. No exige que las instituciones abandonen sus metodologías, sino que complementen su análisis clínico con una capa de interpretación algorítmica. En segundo lugar, porque su objetivo no es tomar decisiones autónomas sobre pacientes, sino descubrir patrones latentes en los datos de investigación médica, algo que reduce el umbral de riesgo legal y ético. Y en tercer lugar, porque apunta a resolver un cuello de botella económico crítico: la enorme tasa de fracaso en ensayos clínicos, que actualmente ronda el 80% en fases avanzadas.

Este último punto es clave para imaginar la velocidad de adopción. Las grandes farmacéuticas destinan más de 40.000 millones de dólares anuales a investigación y desarrollo. Si una herramienta permite ahorrar un 10% de esos recursos (identificando a tiempo los ensayos con viabilidad clínica o revelando respuestas ocultas en cohortes heterogéneas) su valor agregado se vuelve inmediato y mensurable.

Ya hay señales concretas de interés. Según fuentes cercanas al proyecto, NetraMark ha iniciado conversaciones con varias CROs (Contract Research Organizations), que actúan como intermediarias técnicas entre laboratorios, hospitales y entes reguladores. También se están explorando integraciones con plataformas de Electronic Health Records (EHR) para que NetraAI pueda analizar datos históricos de pacientes en instituciones que llevan décadas acumulando información sin haber podido aprovecharla plenamente.

La medicina como problema de interpretación

En un nivel más profundo, la aparición de sistemas como NetraAI sugiere un cambio de perspectiva sobre qué es “hacer medicina”. Si durante décadas la innovación biomédica se basó en la experimentación molecular y luego en la genómica, ahora asistimos a una etapa en la que el foco se desplaza hacia la interpretación algorítmica de la heterogeneidad clínica.

Es decir: el problema ya no es únicamente desarrollar nuevos fármacos o intervenir el genoma, sino comprender con precisión para quién sirve cada cosa, en qué condiciones, y con qué efectos diferenciados. En ese sentido, la medicina se vuelve cada vez más un problema de segmentación e interpretación, donde los datos tienen valor no por su volumen, sino por su capacidad de ser leídos en su complejidad contextual.

NetraAI representa una herramienta que no simplifica la complejidad clínica, sino que la respeta y la explora con nuevas herramientas conceptuales. No busca reducir a los pacientes a etiquetas binarias (responde / no responde), sino entender qué relaciones existen entre sus características fenotípicas, su entorno, sus antecedentes, y la respuesta terapéutica. Esa ambición —detectar estructura allí donde otros modelos ven ruido— es tal vez su mayor diferencial.

¿Quién controla a quién? Riesgos y debates inevitables

Como todo avance tecnológico en medicina, este también trae preguntas que aún no tienen respuestas plenas. ¿Qué sucede si una IA descubre una correlación entre un marcador genético y la respuesta negativa a un tratamiento, y eso impacta en decisiones de cobertura médica? ¿Qué pasa si una farmacéutica utiliza esta tecnología para segmentar a pacientes y excluir preventivamente a aquellos que podrían responder menos (aunque todavía lo hagan en cierta proporción)? ¿Se corre el riesgo de que la búsqueda de eficiencia clínica genere nuevas formas de discriminación biomédica?

Además, existe el problema del “algoritmo que se equivoca con elegancia”: una IA puede generar explicaciones convincentes pero erróneas, y si esas explicaciones son usadas para tomar decisiones clínicas o regulatorias, el daño podría ser profundo y difícil de rastrear. Por eso, una de las exigencias de los entes de control será validar que el sistema no solo ofrezca outputs explicables, sino que esas explicaciones sean correctas, reproducibles y auditables.

NetraMark, consciente de este riesgo, ha desarrollado un sistema interno llamado “transparencia reforzada”, que documenta todos los pasos del análisis clínico, los datasets utilizados, los parámetros estadísticos aplicados y los umbrales de significancia definidos. A diferencia de otros sistemas, donde el médico recibe solo la conclusión final, NetraAI permite revisar el camino lógico completo que llevó a esa conclusión. Esta característica, si se valida externamente, podría convertirse en un nuevo estándar para las IAs médicas.

Una señal de madurez: IA que investiga, no que improvisa

Durante los últimos años, el desarrollo de inteligencia artificial ha estado dominado por una lógica performativa: modelos que impresionan por su fluidez, su versatilidad, su habilidad para simular pensamiento humano en tiempo real. Pero esa misma lógica ha sido también fuente de escepticismo entre científicos. Si un sistema responde bien porque ha visto millones de ejemplos, ¿realmente comprende lo que está haciendo? ¿Y hasta qué punto podemos confiar en su inferencia cuando se enfrenta a dominios de alta sensibilidad como la medicina?

Lo que marca el caso de NetraAI es un giro de enfoque. Aquí no hay improvisación estilística, ni simulación de conocimiento. Hay una arquitectura diseñada para generar descubrimiento científico, no para emular la escritura de un paper. No se trata de responder preguntas formuladas en lenguaje natural, sino de formular nuevas preguntas clínicas a partir de los datos, como lo haría un investigador. El salto, entonces, no es de rendimiento, sino de intención algorítmica: dejar de construir máquinas que imitan el saber, y comenzar a construir máquinas que colaboran con él.

Esto no significa que los modelos generalistas hayan perdido valor. Al contrario: muchos de ellos son herramientas útiles en el acompañamiento médico, la educación de pacientes, el análisis de literatura biomédica. Pero el estudio de NetraMark insinúa que la siguiente frontera de la IA no será la generalidad, sino la relevancia contextual. Y que para cruzarla, no alcanza con escalar parámetros o entrenar con más texto: hay que diseñar desde el problema, desde su complejidad estructural y su marco institucional.

Un nuevo contrato entre IA y ciencia aplicada

Si se confirma lo que promete este trabajo publicado, no estamos solo ante un avance técnico, sino ante una transformación en la relación entre inteligencia artificial y ciencia aplicada. Hasta ahora, la IA ha sido vista por muchos como un instrumento externo a la lógica del laboratorio: una herramienta poderosa, sí, pero algo ajena a los procedimientos clásicos de validación y descubrimiento. NetraAI sugiere que esa frontera se está diluyendo. Que una IA puede participar activamente del proceso de generación de conocimiento clínico, respetando sus reglas, su precisión, su trazabilidad.

Eso plantea la necesidad de un nuevo contrato institucional. ¿Quién valida a la IA que propone hallazgos? ¿Cómo se reconoce su autoría sin caer en el fetichismo algorítmico? ¿Qué lugar ocupa en la cadena de responsabilidad científica? Estos interrogantes no son secundarios: serán centrales en los próximos años si tecnologías como NetraAI comienzan a integrarse en los ciclos de desarrollo de tratamientos, en los informes regulatorios, e incluso en las publicaciones académicas.

Lo cierto es que algo ha cambiado. Ya no se discute si la IA puede “ayudar” en medicina. Se empieza a discutir cómo debe hacerlo, bajo qué condiciones, y con qué grado de agencia analítica. Y eso es una señal clara de que el campo ha madurado. El entusiasmo ya no gira en torno a modelos que hablan como médicos. Gira en torno a modelos que piensan con ellos.

Fuente

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí