En la fulgurante saga de la inteligencia artificial, hemos aprendido a asombrarnos con la elocuencia. Los grandes modelos de lenguaje, o LLMs, han dominado la palabra escrita y hablada con una fluidez que roza lo poético. Son capaces de redactar un soneto, depurar código informático o debatir sobre filosofía kantiana. Sin embargo, esta brillantez ha permanecido, hasta ahora, en gran medida incorpórea. La IA es como un genio deslumbrante encerrado en una habitación, capaz de describir el mundo en detalle, pero incapaz de abrir la puerta, usar un teléfono o preparar una taza de café. El salto cualitativo, el verdadero amanecer de la IA funcional, no reside en su capacidad de decir, sino en su habilidad para hacer.
Aquí es donde la frontera de la investigación se topa con un muro formidable. El mundo real no es un texto estático; es un entorno dinámico que exige acciones, el uso de herramientas y la planificación a largo plazo. Una tarea aparentemente simple para un humano, como "organizar un viaje de negocios a Tokio para la próxima semana", es un abismo de complejidad para una máquina. Requiere consultar múltiples sistemas (vuelos, hoteles, calendarios), manejar respuestas impredecibles (falta de disponibilidad, errores de conexión) y mantener una coherencia de objetivo a lo largo de docenas de pasos. Este es el desafío del "horizonte largo".
Los intentos actuales de crear "agentes" de IA se han visto frustrados por dos demonios gemelos. El primero es la "explosión del límite de contexto": la memoria a corto plazo de la IA, su "ventana de contexto", se satura rápidamente con el historial de acciones y las respuestas de las herramientas, haciendo que olvide el objetivo original. El segundo es la "acumulación de errores": un pequeño fallo o una alucinación en el paso dos de una secuencia de veinte se magnifica exponencialmente, llevando al agente a un callejeron sin salida.
En este complejo escenario, un equipo de investigadores de la Universidad Renmin de China y de Xiaohongshu Inc. ha publicado un trabajo que redefine fundamentalmente nuestra concepción de un agente de IA. Su artículo, titulado "DeepAgent: A General Reasoning Agent with Scalable Toolsets", no presenta simplemente un modelo más grande o más rápido. Presenta una arquitectura, una nueva forma de pensar sobre la cognición de la máquina. DeepAgent es un sistema diseñado para razonar profundamente, descubrir herramientas de forma autónoma y ejecutar acciones, todo dentro de un único y coherente proceso de pensamiento.
Para conquistar los valles del "horizonte largo", el equipo ha introducido dos innovaciones conceptuales de enorme calado. La primera es un mecanismo que han denominado "plegamiento autónomo de la memoria". En lugar de un caótico historial lineal de chat, DeepAgent organiza su experiencia en una estructura de memoria sofisticada, asombrosamente similar a la humana. Posee una memoria de trabajo para la tarea actual, una memoria episódica para las experiencias pasadas y una memoria de herramientas para el conocimiento adquirido sobre cómo funciona el mundo.
La segunda innovación aborda cómo el agente aprende a usar ese arsenal de herramientas. Desarrollaron una estrategia de aprendizaje por refuerzo, bautizada como ToolPO, que permite al agente entrenarse de forma segura y eficiente. Para lograrlo, utiliza un ingenioso "simulador" (otro LLM) que finge ser las miles de APIs del mundo real, permitiendo a DeepAgent "practicar" millones de veces sin coste ni riesgo. Crucialmente, este método de entrenamiento es capaz de identificar con precisión qué acción específica en una larga cadena fue la responsable del éxito final. El resultado es un agente que no solo actúa, sino que aprende de sus acciones, refina sus métodos y construye una verdadera "sabiduría" operativa.
La miopía del contexto y la rigidez de la acción
Para apreciar la magnitud del salto que propone DeepAgent, primero debemos diseccionar la fragilidad de los sistemas actuales. Los modelos de lenguaje masivos, por potentes que sean, son fundamentalmente motores de predicción de la siguiente palabra. Para que interactúen con el exterior, los ingenieros los "envuelven" en andamiajes de software. Estos andamiajes suelen seguir flujos de trabajo predefinidos. Si el usuario pide X, el sistema ejecuta la herramienta A y luego la B. Esta rigidez es funcional para tareas simples, pero se quiebra ante la ambigüedad del mundo real.
El uso de "herramientas" en este contexto se refiere casi siempre a las Interfaces de Programación de Aplicaciones, o APIs. Una API no es más que un "menú" estandarizado que permite a un programa de software solicitar un servicio a otro. Cuando pedimos el pronóstico del tiempo en nuestro teléfono, una aplicación está llamando a una API de un servicio meteorológico. Un agente de IA verdaderamente útil debería ser capaz de navegar por miles de estas APIs: para reservar vuelos, consultar bases de datos científicas, analizar mercados financieros o incluso controlar hardware de laboratorio.
Aquí es donde la "ventana de contexto" se convierte en un grillete. Esta ventana es el espacio de memoria activa en el que el modelo puede "ver" la información. Es el equivalente a nuestro propio foco de atención. En tareas largas, el registro de interacciones (el "prompt") crece desmesuradamente. "Llamé a la API de vuelos, me dio 10 opciones. Analicé la primera, no tenía sentido. Analicé la segunda, tenía una escala. Llamé a la API de hoteles para esa escala, me dio 5 opciones..." En pocos pasos, la información original, el objetivo principal ("viaje de negocios a Tokio"), ha quedado tan atrás en el historial que desaparece de la ventana de contexto. El agente se vuelve "miope": solo ve el presente inmediato y olvida la misión general.
Peor aún es la acumulación de errores. Si en el segundo paso el modelo malinterpreta una respuesta de la API (quizás confunde un código de moneda o una zona horaria), ese error no se corrige, sino que se integra en la realidad del agente. Todas las decisiones subsiguientes se basan en esa premisa falsa. Es un efecto de bola de nieve cognitivo. El agente se pierde en un laberinto de sus propias fabulaciones, incapaz de volver al camino correcto.
La arquitectura de una mente operativa: memoria plegable
El enfoque de DeepAgent no es intentar ampliar la ventana de contexto hasta el infinito, lo cual es computacionalmente inviable. Su solución es más elegante: es gestionar la información que se encuentra dentro de esa ventana de manera radicalmente diferente. El "plegamiento autónomo de la memoria" es el corazón de esta nueva arquitectura cognitiva.
Este sistema de memoria se divide en tres componentes distintos que interactúan de forma dinámica, como ilustra el siguiente gráfico. A diferencia de un historial lineal simple que se desborda, esta arquitectura permite al agente comprimir y organizar activamente su conocimiento en módulos específicos.
Primero, la Memoria de Trabajo. Esta es la conciencia activa del agente, su "escritorio" mental. Pero no es solo un volcado de datos. Los investigadores la han estructurado con un esquema que obliga al agente a la introspección y la planificación. Esta memoria contiene campos explícitos como "objetivo_actual", "subobjetivo" (en qué estoy trabajando ahora mismo), "desafíos_actuales" (qué obstáculos estoy encontrando) y "próximas_acciones" (qué pretendo hacer a continuación). Esta auto-reflexión estructurada mantiene al agente anclado a la tarea, forzándole a mantener una estrategia coherente.
Esquema de la Memoria de Trabajo (Working Memory Schema)
{
"current_objective": "El objetivo de más alto nivel que el agente está tratando de lograr.",
"subgoal": "Hacia qué estás trabajando activamente en este momento.",
"current_challenges": "Un resumen conciso de los principales obstáculos o dificultades que estás encontrando.",
"next_actions": [
{
"type": "tool_call o planning o decision",
"description": "Anticipar y describir la próxima acción concreta que pretendes tomar para avanzar en la tarea."
}
]
}
Segundo, la Memoria Episódica. Este es el "diario" del agente, su experiencia a largo plazo. Cuando una tarea se completa (o fracasa), o cuando la Memoria de Trabajo se satura, el propio agente inicia un proceso de "plegamiento". Reflexiona sobre la secuencia de acciones que acaba de realizar y la comprime en un resumen estructurado que se almacena en esta memoria episódica. Por ejemplo, un episodio podría registrar: "Tarea: Reservar vuelo. Resultado: Fracaso. Razón: La API de la aerolínea requería un 'ID_de_miembro' que no se proporcionó. Lección: Siempre verificar los parámetros de autenticación antes de llamar."
Tercero, la Memoria de Herramientas. Esta es quizás la innovación más crítica para la escalabilidad. Es la base de conocimiento acumulada del agente sobre cómo funciona el mundo exterior. Cada vez que el agente interactúa con una API, actualiza esta memoria. Un registro en esta base de datos no solo lista el nombre de la herramienta, sino que rastrea patrones: cuál es su tasa de éxito, qué combinación de parámetros suele ser efectiva, qué errores son los más comunes y qué formato suelen tener sus respuestas. El agente aprende, por ejemplo, que la "API_Tiempo_Global" es muy fiable para ciudades de EE.UU. pero falla a menudo para pueblos pequeños en Asia, o que la "API_Traducción_Rápida" funciona mejor con frases cortas.
Esquema de la Memoria de Herramientas (Tool Memory Schema)
{
"tools_used": [
{
"tool_name": "string",
"success_rate": "float",
"effective_parameters": ["param1", "param2"],
"common_errors": ["error_type1", "error_type2"],
"response_pattern": "descripción de la salida típica",
"experience": "Reflexionar y resumir la experiencia, incluyendo éxitos y fracasos."
}
],
"derived_rules": [
"Cuando ocurre la condición X, preferir la herramienta Y",
"La herramienta Z funciona mejor con el parámetro A configurado en B"
]
}
El proceso de "plegamiento" es, por tanto, un acto de destilación. El agente limpia su Memoria de Trabajo (resolviendo el problema de la ventana de contexto) pero no desecha la información. La transforma en sabiduría estructurada, guardándola en las memorias episódica y de herramientas. Cuando se enfrenta a un nuevo problema, el agente no empieza de cero; consulta estas memorias para ver si ha resuelto algo similar antes o si las herramientas que necesita le son familiares. Esto reduce drásticamente la acumulación de errores, porque el agente aprende de sus fracasos pasados en lugar de estar condenado a repetirlos.
Aprender a usar el martillo: el simulador de ToolPO
Tener un sistema de memoria sofisticado es inútil si el agente no tiene experiencias de las que aprender. ¿Cómo adquiere una IA el "sentido común" para usar una herramienta? Un humano aprende probando y fallando. Pero dejar que una IA "pruebe y falle" con APIs del mundo real es prohibitivamente lento, caro y potencialmente peligroso. No podemos permitir que un agente en entrenamiento reserve un millón de vuelos reales para aprender cómo funciona la API de una aerolínea.
Para sortear este obstáculo, el equipo de DeepAgent desarrolló ToolPO (Tool-use Policy Optimization), una estrategia de aprendizaje por refuerzo de extremo a extremo. El componente más ingenioso de esta estrategia es el uso de APIs simuladas por un LLM.
El proceso funciona en dos etapas. Primero, se utiliza un potente LLM "profesor" para crear un "simulador" del mundo. Este simulador aprende a imitar las respuestas de miles de APIs reales. El agente "estudiante", DeepAgent, puede entonces interactuar con este entorno de simulación a una velocidad vertiginosa. Puede "llamar" a una API de reserva de hotel simulada millones de veces en pocos minutos, experimentando todo el espectro de posibles respuestas (éxitos, errores, hoteles llenos, datos inválidos) sin ninguna consecuencia en el mundo real.
La diferencia en la eficiencia del entrenamiento es astronómica. Entrenar en entornos reales es lento y costoso, mientras que el entorno simulado permite un aprendizaje masivo y paralelo a un coste mínimo, como ilustra el siguiente gráfico.
Pero el simple hecho de practicar no es suficiente. El agente necesita saber qué hizo bien. En el aprendizaje por refuerzo, esto se conoce como el problema de la "atribución de crédito". Si el agente completa con éxito una tarea de 10 pasos, ¿cómo sabe qué paso fue el crucial? ¿Fue la elección de la herramienta en el paso 3 o la formulación de la consulta en el paso 7? Los métodos tradicionales de RL simplemente asignarían una recompensa al final, diluyendo el aprendizaje.
ToolPO implementa un mecanismo avanzado llamado "atribución de ventaja de llamada de herramienta". Este método matemático permite al sistema analizar la cadena de decisiones y asignar un valor de "ventaja" a cada llamada de herramienta específica. El sistema puede identificar que, aunque el resultado final fue un éxito, la llamada a la herramienta en el paso 5 fue en realidad una mala decisión que se corrigió después. Y, a la inversa, en un fracaso, puede identificar la llamada de herramienta exacta que lo provocó. Este aprendizaje, preciso y quirúrgico, permite al agente refinar sus políticas de acción (su "intuición") de manera extraordinariamente eficiente.
El agente en acción: más allá de los puntos de referencia
La prueba de cualquier arquitectura de IA no está en su elegancia teórica, sino en su rendimiento. Los creadores de DeepAgent lo compararon con los marcos de agentes más avanzados hasta la fecha en bancos de pruebas como ToolBench y API-Bank, diseñados específicamente para medir la capacidad de resolver tareas complejas de múltiples pasos.
Los resultados son contundentes. DeepAgent supera significativamente a sus predecesores en múltiples dominios. Donde otros agentes flaquean, el sistema de memoria plegable de DeepAgent le permite mantener la coherencia y la planificación a largo plazo.
Este gráfico, inspirado en la Figura 1 del paper, compara el rendimiento de DeepAgent con el anterior "estado del arte" (SOTA) en una variedad de bancos de pruebas (benchmarks) que miden la capacidad de uso de herramientas. Cada eje representa un conjunto de tareas diferente, y un área mayor representa un rendimiento superior.
Pero más allá de las puntuaciones numéricas, lo que el estudio demuestra es un cambio cualitativo en la capacidad. Los investigadores presentan un estudio de caso en el que el agente maneja una consulta de usuario ambigua y compleja. El sistema navega de forma autónoma por la selección de herramientas, ejecuta acciones secuenciales, maneja errores inesperados de las APIs (consultando su Memoria de Herramientas para encontrar una alternativa) y, finalmente, sintetiza los resultados de múltiples fuentes en una respuesta coherente y completa.
Esto significa que nos estamos moviendo de tareas de juguete a flujos de trabajo del mundo real. Un agente construido sobre estos principios podría, en teoría, recibir un objetivo de alto nivel como: "Analiza el lanzamiento de nuestro principal competidor la semana pasada". El agente podría entonces, de forma autónoma, identificar las herramientas necesarias (APIs de redes sociales, motores de búsqueda de noticias, APIs de análisis de sentimiento), recopilar los datos, procesar la información, generar un informe resumido y, al encontrar un dato anómalo, decidir por sí mismo realizar una investigación más profunda sobre ese punto, todo ello mientras mantiene el objetivo general en su Memoria de Trabajo.
La IA sale del laboratorio
El trabajo sobre DeepAgent es más que un simple avance académico. Es una señal profunda de un cambio de paradigma. Estamos presenciando la transición de la "IA generativa", centrada en la creación de contenido, a la "IA agéntica", centrada en la ejecución de acciones. El genio elocuente está saliendo de su habitación y se le están dando las llaves del edificio.
Las implicaciones de esta transición son difíciles de exagerar. En el campo de la investigación científica, esto se acerca a la visión de DeepMind de Google. El hito de AlphaFold, que resolvió el plegamiento de proteínas, fue un ejemplo de IA aplicada a un problema científico monumental. DeepAgent proporciona el andamiaje para que las futuras IAs aborden miles de problemas de este tipo de forma autónoma. Un agente de IA científico podría diseñar un experimento, ejecutarlo en simuladores o incluso en equipos de laboratorio robotizados (controlados por APIs), analizar los resultados y, basándose en ellos, diseñar el siguiente experimento, ejecutando el ciclo de la ciencia a una velocidad sobrehumana.
Para la sociedad y la industria, esta es la base de los asistentes autónomos que hemos imaginado durante mucho tiempo. No simples chatbots, sino verdaderos "copilotos" para profesiones complejas. Un agente capaz de manejar un horizonte largo y un conjunto de herramientas escalable podría gestionar la logística de una cadena de suministro, realizar la investigación legal preliminar para un caso complejo o incluso coordinar las respuestas de emergencia en una crisis.
Por supuesto, una IA que puede actuar en el mundo real de forma autónoma también multiplica exponencialmente los desafíos de seguridad, alineación y control. Cuando un modelo de lenguaje comete un error, produce desinformación. Cuando un agente autónomo comete un error, podría borrar una base de datos, realizar una transacción financiera catastrófica o tomar una acción irreversible. El rigor del mecanismo de memoria plegable y el entorno de entrenamiento simulado de ToolPO son los primeros pasos cruciales hacia la creación de agentes que no solo son capaces, sino también fiables y predecibles.
DeepAgent no es la inteligencia artificial general, pero es un pilar fundamental de su arquitectura. Demuestra que los problemas de la memoria a largo plazo y el aprendizaje eficiente de herramientas no son obstáculos insuperables, sino desafíos de ingeniería y diseño que podemos empezar a resolver. Nos muestra cómo construir una IA que no solo hable, sino que recuerde, planifique y, fundamentalmente, actúe.
Referencias
Li, X., Jiao, W., Jin, J., Dong, G., Jin, J., Wang, Y., Wang, H., Zhu, Y., Wen, J., Lu, Y., & Dou, Z. (2025). DeepAgent: A General Reasoning Agent with Scalable Toolsets. arXiv:2510.21618 [cs.AI].
Schick, T., Dwivedi-Yu, J., Dessì, R., Raileanu, R., Lomeli, M., Zettlemoyer, L., Cancedda, N., & Scialom, T. (2V023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761 [cs.CL].
Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629 [cs.CL].



