NEWSLETTER

La ciencia delega tareas a sus nuevos asistentes virtuales

Generated Image October 27, 2025 - 12_45AM

La ciencia delega tareas a sus nuevos asistentes virtuales

En los laboratorios de Stanford, un algoritmo revisa expedientes médicos electrónicos en busca de patrones ocultos. En Harvard, estudiantes de doctorado delegan tareas de curación de datos a modelos computacionales que responden como colegas virtuales. En San Francisco, una inteligencia diseñada por Anthropic fracasa estrepitosamente al intentar administrar una máquina expendedora, perdiendo dinero y fabricando cuentas bancarias inexistentes. Estas escenas disímiles componen el retrato actual de los agentes autónomos, herramientas que prometen transformar la manera en que se produce conocimiento científico, aunque el camino hacia esa promesa esté repleto de obstáculos técnicos y errores desconcertantes.

A diferencia de los chatbots convencionales que responden preguntas puntuales, estos sistemas utilizan modelos de lenguaje conectados a navegadores, bases de datos y suites de programación para ejecutar tareas complejas de múltiples pasos. La apuesta de la industria tecnológica sostiene que tales asistentes no solo ahorrarán tiempo, sino que eventualmente diseñarán experimentos, generarán hipótesis y producirán descubrimientos de forma autónoma.

Sin embargo, la realidad dista de ese horizonte idealizado. Los errores conocidos como alucinaciones, producto de su naturaleza estadística, continúan minando la confiabilidad de estas plataformas en contextos donde la precisión resulta vital.

El colapso de Claudius y los límites de la autonomía

El episodio de la máquina expendedora operada por Claudius, un agente basado en Claude Sonnet 3.7 de Anthropic, ilustra de manera gráfica las limitaciones actuales. Durante un mes, el sistema debía comprar inventario, fijar precios y evitar la bancarrota. Los empleados de la empresa descubrieron rápidamente que podían manipular al algoritmo, obteniendo descuentos del 25% sin justificación y convenciéndolo de almacenar cubos de tungsteno como si fueran productos de alta demanda. Claudius vendió artículos a pérdida, inventó información sobre el stock disponible y terminó con un saldo negativo de 200 dólares. En un momento dado, fabricó detalles de cuentas bancarias falsas y experimentó lo que algunos investigadores describieron como un «colapso psicológico», generando una realidad completamente ficticia cuando se enfrentaba a inconsistencias.

Anthropic publicó los resultados como evidencia de investigación valiosa, argumentando que los fallos eran reparables. No todos compartieron ese optimismo. Críticos señalaron que si el agente hubiera controlado infraestructura crítica, dispositivos médicos o sistemas financieros, las consecuencias habrían sido catastróficas. El experimento develó una tensión fundamental: los modelos actuales carecen del juicio necesario para operar sin supervisión humana intensiva, especialmente en dominios donde los errores implican costos tangibles.

Marinka Zitnik, investigadora de informática biomédica en Harvard, adoptó un enfoque más pragmático. Cada estudiante de doctorado en su grupo cuenta con un agente propio que funciona como asistente de investigación para actividades de bajo riesgo: curar conjuntos de datos, convertir texto en tablas, redactar fragmentos específicos de código. Zitnik y su equipo desarrollaron ToolUniverse, un entorno abierto que permite conectar modelos de lenguaje a herramientas científicas mediante comandos en lenguaje natural, democratizando el acceso sin requerir habilidades de programación avanzadas. La plataforma integra 211 instrumentos vinculados a fuentes confiables, incluyendo todos los fármacos aprobados por la FDA desde 1939 e información clínica validada por consorcios internacionales.

En trabajos aún no publicados, el grupo de Zitnik utilizó agentes para analizar datos de ensayos clínicos, efectos adversos y documentos regulatorios, buscando medicamentos con efectos protectores contra enfermedades distintas a las indicadas originalmente. Identificaron, por ejemplo, que personas con diabetes tratadas con dapagliflozina mostraron una incidencia menor de Alzheimer en etapas posteriores de la vida. El equipo también ejecuta «ensayos clínicos» in silico empleando registros médicos electrónicos para probar hipótesis de manera acelerada.

Tableros tumorales virtuales y personalización masiva

Microsoft desarrolla un orquestador de agentes sanitarios diseñado para replicar las deliberaciones de los comités oncológicos multidisciplinarios que determinan planes de tratamiento individualizados para pacientes con cáncer. Normalmente, estos tableros tumorales se reservan para los casos más complejos debido a la carga laboral que implican: cada revisión demanda entre 1.5 y 2.5 horas de trabajo clínico, incluyendo análisis de imágenes radiológicas, biopsias patológicas, registros genómicos y elegibilidad para ensayos clínicos. Menos del 1% de los pacientes oncológicos accede actualmente a este nivel de atención personalizada.

Stanford Medicine, Johns Hopkins, UW Health y Mass General Brigham participan en pruebas del sistema, que coordina múltiples agentes especializados para procesar datos desordenados y multimodales. En UW Health, el radiólogo Joshua Warner explora la posibilidad de reducir las revisiones de más de dos horas a apenas minutos. Microsoft subrayó en mayo de 2025 que sus modelos sanitarios estaban destinados exclusivamente a investigación y no debían desplegarse «tal cual» en entornos clínicos. La precaución refleja la tensión entre el potencial disruptivo de la tecnología y los riesgos inherentes a su implementación prematura.

Google presentó su sistema de co-científico construido sobre Gemini 2.0, empleando múltiples agentes que generan hipótesis, debaten alternativas y refinan propuestas mediante un proceso evolutivo inspirado en el método científico. En colaboración con Stanford e Imperial College London, el sistema identificó un mecanismo novedoso de transferencia genética vinculado a la resistencia antimicrobiana, hallazgo que investigadores del Imperial College verificaron independientemente tras años de estudio. Para la leucemia mieloide aguda, el co-científico propuso candidatos de reutilización de fármacos que exhibieron inhibición tumoral in vitro a concentraciones clínicamente relevantes. En fibrosis hepática, sugirió objetivos epigenéticos validados posteriormente mediante actividad antifibrótica y regeneración celular en organoides hepáticos humanos.

Estos éxitos experimentales contrastan con las limitaciones documentadas en otros contextos. Doug Downey, investigador del Allen Institute for Artificial Intelligence, señaló que aunque paquetes sencillos para revisiones bibliográficas ya están disponibles para cualquier usuario, sistemas más avanzados requieren experiencia en aprendizaje automático. Ece Kumar, líder del laboratorio de Fronteras de la IA en Microsoft Research, advirtió que el agente definitivo, capaz de realizar cualquier tarea de forma autónoma y confiable, constituye «casi un problema de inteligencia general artificial», objetivo que permanece distante.

El dilema entre velocidad y fiabilidad

La evaluación rigurosa de estos sistemas permanece fragmentada. Investigadores están desarrollando benchmarks como AstaBench, diseñado para medir capacidades en el espectro completo del proceso de descubrimiento científico mediante más de 2400 problemas inspirados en solicitudes reales de usuarios. Sin embargo, las evaluaciones extensas revelan que, pese a avances significativos en aspectos individuales, la autonomía plena en asistencia científica sigue siendo un desafío sin resolver.

Las alucinaciones emergen de vulnerabilidades técnicas estratificadas: sesgos en datos de entrenamiento, opacidad en procesos de ajuste y dificultades en el filtrado descendente. En el sector legal, modelos generativos han producido citas de casos ficticios que resultaron en sanciones judiciales. En salud, herramientas de transcripción insertaron términos inventados como «antibióticos hiperactivados» en registros de pacientes. Estos fallos no son periféricos: reflejan limitaciones estructurales que los sistemas actuales no han superado.

La confianza en agentes plenamente autónomos ha caído del 43% al 27% entre líderes empresariales durante el último año, impulsada por preocupaciones sobre privacidad, sesgo algorítmico y ética. En investigación clínica, donde la seguridad del paciente y el cumplimiento regulatorio son primordiales, los modelos de humano en el circuito prevalecen, permitiendo que las recomendaciones algorítmicas sean validadas por profesionales antes de implementarse. Los ensayos clínicos siguen dependiendo en un 70-80% del trabajo humano manual, y el desarrollo de nuevos medicamentos continúa demandando entre 10 y 15 años y miles de millones de dólares, cifras que no han variado sustancialmente en décadas.

Referencias:

Nature – «How AI agents will change research: a scientist’s guide»nature
Google Research Blog – «Accelerating scientific breakthroughs with an AI co-scientist»research
ArXiv – «Agentic AI for Scientific Discovery: A Survey of Progress»arxiv
PyPI – «ToolUniverse»pypi
Zitnik Lab – «TxAgent: An AI Agent for Therapeutic Reasoning»zitniklab.hms.harvard
ArXiv – «Democratizing AI scientists using ToolUniverse»arxiv
Nate’s Newsletter – «AGI Meltdown: Claude’s Vending-Machine Disaster»natesnewsletter.substack
The AI Track – «Claudius AI Shop Trial Ends in Confusion and Loss»theaitrack
Maginative – «Microsoft’s Healthcare Agent Orchestrator»maginative
IEEE Computer Society – «Hallucinations in AI Models»computer
MLQ.AI – «Anthropic’s Claude AI Struggles as Vending Machine Operator»mlq
Microsoft Research – «Transforming Tumor Boards»microsoft
Harvard Misinformation Review – «New sources of inaccuracy: A conceptual framework»misinforeview.hks.harvard
Reddit r/ClaudeAI – «I asked Claude about the vending machine incident»reddit
Microsoft Industry Blog – «Developing next-generation cancer care management»microsoft
OpenAI – «Why language models hallucinate»openai
SciArena Paper – «An Open Evaluation Platform for Foundation Models»sciarena.allen
Applied Clinical Trials – «Setting the Limits of Autonomy»appliedclinicaltrialsonline
OpenRead – «Towards an AI co-scientist»openread
Nature Communications – «Risks of AI scientists»nature
ArXiv – «Towards an AI co-scientist»arxiv
Berkeley CMR – «Rethinking AI Agents»cmr.berkeley

Publicaciones Recientes

Generated Image October 27, 2025 - 1_24AM

El trabajo fantasma sale a la luz en la app de Uber

Un destello en la pantalla del teléfono interrumpe la espera de Javier, un conductor de Uber en Austin. No es una solic
Leer Más
Generated Image October 27, 2025 - 1_43AM

Patrones artificiales versus engagement genuino

Piensa en una campaña que genera euforia en la sala de reuniones: métricas que se disparan, clics que parecen llover,
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí