Un nuevo entrenamiento hace que la IA recuerde por qué se equivocó

Cuando las máquinas aprenden a reflexionar

Hay una brecha profunda entre la forma en que los seres humanos aprenden y la manera en que lo hacen los sistemas de inteligencia artificial. Un niño que toca una estufa caliente no solo registra el dolor: razona sobre lo ocurrido, comprende la relación entre causa y efecto, y modifica su conducta antes de volver a acercarse a cualquier superficie similar. Los modelos de lenguaje más avanzados del mundo, en cambio, hasta hace muy poco operaban de modo radicalmente distinto: recibían una señal de éxito o fracaso y, a fuerza de repetición ciega, iban ajustando su comportamiento sin mediar ningún proceso de análisis intermedio.

Ese salto cualitativo, el que va de la corrección mecánica a la revisión reflexiva, es precisamente el que un equipo de investigadores de la Universidad del Sur de California, la Universidad de Pensilvania y Microsoft ha intentado dar con un trabajo publicado en febrero de 2026. El paper, titulado Experiential Reinforcement Learning, fue desarrollado por Taiwei Shi, Sihao Chen, Bowen Jiang, Linxin Song, Longqi Yang y Jieyu Zhao, e introduce lo que sus autores denominan ERL: un paradigma de entrenamiento que incorpora un ciclo explícito de experiencia, reflexión y consolidación dentro del propio proceso de aprendizaje de los modelos.

Lo que el equipo propone es algo más preciso que una simple mejora técnica: hacer que los modelos de inteligencia artificial no solo aprendan de los resultados, sino que incorporen un bucle de razonamiento intermedio que convierta cada error en una lección articulada. Que el sistema, en otras palabras, piense sobre lo que hizo mal antes de intentarlo de nuevo, y que ese pensamiento quede grabado en su comportamiento futuro.

Para entender por qué esto representa un avance genuino, hay que comprender primero cómo funcionan los métodos de entrenamiento que dominaron la última etapa de la inteligencia artificial. Los grandes modelos de lenguaje, desde los sistemas de OpenAI hasta los de Google, pasando por los desarrollados en Anthropic o DeepSeek, han sido entrenados en gran medida mediante una técnica conocida como aprendizaje por refuerzo con recompensas verificables, que en la jerga especializada se abrevia RLVR. La lógica es simple: el modelo intenta resolver una tarea, recibe una puntuación que indica si tuvo éxito o no, y esa señal numérica se usa para ajustar sus parámetros internos. Cuanto más alto el puntaje, más probable que el sistema repita ese comportamiento.

El problema es que esta señal suele llegar tarde y en forma escasa. En muchos entornos reales, el modelo no sabe si lo hizo bien hasta el final de una secuencia larga de decisiones, y en ese momento ya no es sencillo atribuir el éxito o el fracaso a ningún paso en particular. Es como evaluar el desempeño de un médico residente solo al final de una cirugía compleja, sin darle ninguna retroalimentación durante el procedimiento. El aprendizaje se vuelve lento, errático y costoso en términos computacionales.

Frente a esa limitación, ERL propone algo que suena deceptivamente sencillo: que el modelo, al fallar, no se limite a recibir una mala nota y volver a intentarlo sin más. En cambio, que se detenga, analice qué salió mal en su primer intento, produzca una reflexión estructurada sobre cómo mejorar, y use esa reflexión para hacer una segunda tentativa. Si esa segunda tentativa tiene éxito, la corrección se internaliza en el modelo: el sistema aprende no solo el resultado correcto, sino el razonamiento que lo condujo a él, y ese razonamiento pasa a formar parte de su comportamiento base.

Esta arquitectura de tres fases, que los autores denominan el ciclo de experiencia, reflexión y consolidación, tiene un precedente filosófico que el propio paper reconoce: la teoría del aprendizaje experiencial del psicólogo educacional David Kolb, formalizada en su trabajo de 2014. Kolb sostenía que el aprendizaje humano efectivo no ocurre por simple exposición a información, sino por un ciclo en el que la experiencia concreta es seguida de observación reflexiva, formación de conceptos abstractos y experimentación activa. ERL traslada ese ciclo cognitivo al interior de los algoritmos de entrenamiento.

El problema del laberinto sin mapa

Para ilustrar el desafío técnico que ERL busca resolver, los investigadores utilizaron dos entornos de prueba de uso extendido en la comunidad de inteligencia artificial: FrozenLake y Sokoban. Ambos son juegos de cuadrícula que, a pesar de su aparente simplicidad, presentan condiciones extremadamente exigentes para cualquier sistema de aprendizaje automático.

En FrozenLake, un agente debe desplazarse desde una posición inicial hasta una meta sobre una grilla de casillas, algunas seguras y otras peligrosas. En Sokoban, el agente debe empujar cajas hasta ubicarlas en posiciones específicas dentro del tablero. Lo que hace especialmente difíciles estas tareas no es su complejidad geométrica, sino las condiciones bajo las que se plantean en el experimento: el modelo no recibe ninguna explicación de las reglas. No sabe qué significa cada símbolo en el tablero, no conoce las consecuencias de cada movimiento y solo recibe una señal de recompensa al final del episodio. Éxito total o fracaso completo, sin matices intermedios.

Para agravar la dificultad, los investigadores usaron representaciones abstractas de los entornos, asignando letras sin sentido semántico a cada elemento del tablero. Con esa codificación deliberadamente opaca, el modelo no puede apoyarse en ningún conocimiento previo adquirido durante su entrenamiento inicial. Debe inferir la lógica del mundo exclusivamente a través de la interacción.

En estas condiciones, el aprendizaje por refuerzo convencional muestra su peor cara. El modelo tantea sin dirección, repite errores similares episodio tras episodio, y avanza con una lentitud frustrante porque no tiene mecanismo alguno para analizar por qué cada intento fracasó. ERL interrumpe ese ciclo de ensayo y error no mediado. Cuando el primer intento falla, el sistema genera en lenguaje natural una reflexión estructurada sobre la situación: una hipótesis sobre qué significa cada símbolo, qué acción provoca qué consecuencia, qué estrategia parece haber fallado y por qué. No se trata de una operación matemática abstracta: el modelo literalmente escribe, en texto legible, su análisis del fracaso.

Sumado a esos dos entornos de control, los investigadores evaluaron el método en HotpotQA, una tarea de razonamiento en múltiples pasos que requiere que el agente realice búsquedas iterativas en fuentes externas antes de formular una respuesta. Esta prueba se aproxima más a los usos reales de un asistente inteligente y permite medir las ventajas del método en condiciones de retroalimentación más densa y menos ambigua.

Rendimiento comparativo: ERL vs. aprendizaje por refuerzo convencional

Puntuación de recompensa final (escala 0–1) obtenida por cada modelo en los tres entornos evaluados. Los datos corresponden a Qwen3-4B-Instruct-2507 y Olmo-3-7B-Instruct entrenados con ERL y con el método convencional (RLVR).

La arquitectura del ciclo reflexivo

El mecanismo central de ERL puede describirse con precisión sin recurrir a fórmulas matemáticas. Dado un problema de entrada, el modelo genera una primera respuesta y recibe del entorno retroalimentación textual más una puntuación numérica. Si esa puntuación supera un umbral predefinido, el ciclo se detiene: el sistema ya tuvo éxito y no es necesario intervenir. Pero si el desempeño es insuficiente, se activa el ciclo reflexivo.

En ese momento, el modelo tiene acceso a cuatro elementos simultáneos: el problema original, su primer intento con todos sus pasos, la señal de retroalimentación del entorno, y una memoria de reflexiones acumulada de episodios anteriores. Con toda esa información disponible, produce una reflexión que funciona como guía para un segundo intento. Si ese segundo intento resulta exitoso, la reflexión que lo produjo se almacena en la memoria para que pueda reutilizarse en episodios futuros.

Cómo funciona el ciclo ERL en tres pasos:

Primer intento: El modelo recibe un problema y genera una respuesta. El entorno devuelve retroalimentación textual y una puntuación numérica. Si el rendimiento es suficiente, el ciclo concluye.

Reflexión estructurada: Si el primer intento falla, el sistema analiza el error en lenguaje natural, consulta su historial de correcciones anteriores y produce una guía explícita para mejorar. Esa guía no es un número: es texto razonado.

Internalización: Cuando el segundo intento tiene éxito, el modelo aprende a reproducir ese comportamiento correcto directamente desde el problema original, sin necesitar la reflexión como andamiaje. La lección queda grabada en la política base.

La memoria de reflexiones es uno de los componentes más interesantes del sistema. No es una base de datos estática: es un repositorio en constante actualización que preserva los patrones correctivos que resultaron efectivos a lo largo del entrenamiento. Cuando el modelo enfrenta una nueva tarea, puede consultar ese historial de soluciones anteriores y usarlo como punto de partida para sus propias reflexiones. Es una forma primitiva pero funcional de aprendizaje acumulativo, de experiencia que se sedimenta y guía decisiones futuras.

El tercer elemento del ciclo, la consolidación, es quizás el más relevante desde el punto de vista práctico. Una vez que el segundo intento tiene éxito, el sistema ejecuta un proceso de destilación supervisada: entrena al modelo para que pueda reproducir el comportamiento correcto directamente desde el problema original, sin necesidad de pasar por la fase de reflexión explícita. Lo que el modelo aprendió reflexionando queda grabado en su política base. La próxima vez que enfrente una situación similar, actuará bien desde el primer intento, sin necesidad de andamiaje reflexivo adicional.

Esta característica tiene una importancia práctica considerable. En el momento del despliegue, los modelos de lenguaje no cuentan con el tiempo ni los recursos para generar reflexiones intermedias para cada consulta. ERL resuelve esa tensión: toda la reflexión ocurre durante el entrenamiento, y sus frutos se incorporan al modelo de forma permanente. El costo computacional adicional existe, pero queda confinado a la fase de preparación.

Los resultados y lo que significan

Los experimentos realizados por el equipo arrojaron resultados notablemente convincentes. En el entorno Sokoban, el modelo Qwen3-4B-Instruct, desarrollado por la empresa Alibaba Cloud, pasó de resolver el 6% de los problemas con el método convencional a resolver el 87% con ERL. Incluso Olmo-3-7B-Instruct, un sistema de código abierto desarrollado por el Allen Institute for AI, pasó del 4% al 20% de resolución en la misma tarea.

Los resultados en FrozenLake también fueron contundentes. El modelo Qwen3 pasó del 86% al 94% de éxito, mientras que Olmo3 mejoró del 39% al 66%. En HotpotQA, las mejoras fueron más moderadas pero consistentes: entre 5 y 11 puntos porcentuales adicionales dependiendo del modelo evaluado.

Lo que hace que estos resultados sean especialmente sólidos es que se replican en dos modelos distintos con arquitecturas y tamaños diferentes. Cuando una mejora metodológica funciona solo con ciertos sistemas o en condiciones muy específicas, puede ser una coincidencia o un efecto dependiente de la arquitectura particular. Cuando se mantiene consistente en múltiples plataformas, el argumento a favor del método en sí mismo se vuelve mucho más difícil de refutar.

El equipo también midió la velocidad de aprendizaje, comparando el rendimiento del modelo en función del tiempo real de entrenamiento expresado en horas. ERL alcanza niveles de rendimiento superiores más rápido que el método convencional en todos los entornos evaluados. En la práctica industrial, el tiempo de entrenamiento es un recurso crítico y costoso. Un modelo que aprende más rápido puede iterarse con mayor frecuencia, actualizarse ante nuevas situaciones y optimizarse con menor inversión computacional.

Velocidad de aprendizaje: tiempo para alcanzar el rendimiento máximo (horas de entrenamiento)

Tiempo de entrenamiento en horas requerido por cada método para alcanzar su puntuación máxima en cada entorno. Los valores menores indican mayor eficiencia. Datos de Qwen3-4B-Instruct-2507.

Lo que ocurre cuando se quitan las piezas

Una parte especialmente rigurosa del trabajo es el análisis de ablación, técnica mediante la cual los investigadores desactivan componentes individuales del sistema para medir la contribución real de cada uno. Esto permite distinguir cuáles partes del diseño son ornamentales y cuáles son estructuralmente necesarias.

El equipo evaluó dos variantes reducidas de ERL. En la primera, se eliminó la memoria de reflexiones entre episodios: el modelo aún reflexionaba dentro de cada episodio, pero esas reflexiones no se guardaban para uso futuro. En la segunda, se eliminó completamente la reflexión estructurada, sustituyéndola por una instrucción genérica que simplemente le indicaba al modelo que intentara hacerlo mejor la próxima vez.

Los resultados confirmaron la jerarquía de importancia de cada componente. La eliminación de la reflexión estructurada produjo las caídas de rendimiento más severas. En FrozenLake, el modelo Qwen3 pasó de 0.94 a 0.60 de recompensa, una pérdida de 34 puntos porcentuales. En Sokoban, cayó de 0.87 a 0.59. La simple instrucción de hacerlo mejor sin reflexión estructurada es, como demuestran estos datos, una señal vacía que el sistema no puede convertir en corrección conductual genuina.

La eliminación de la memoria entre episodios tuvo un efecto más moderado pero igualmente significativo. El sistema sin memoria acumulada convergía más lento y alcanzaba rendimientos ligeramente inferiores en la mayoría de los casos. Hay una excepción interesante: en Sokoban con el modelo Olmo3, deshabilitar la memoria mejoró marginalmente el resultado. Los autores interpretan esto como evidencia de que cuando un modelo tiene capacidades reflexivas más limitadas, el historial acumulado puede incluir errores que contaminan la reflexión futura en lugar de guiarla. Es una advertencia metodológica válida: la memoria solo ayuda cuando las reflexiones que almacena son de suficiente calidad.

Impacto de cada componente: análisis de ablación en Qwen3-4B-Instruct-2507

Comparación de la recompensa final al desactivar cada componente de ERL. "Sin memoria" elimina el historial de reflexiones entre episodios; "sin reflexión" reemplaza el análisis estructurado por una instrucción genérica de reintento.

El lugar de ERL en el mapa de la investigación

El trabajo se enmarca en una corriente más amplia que ha ganado impulso en los últimos años: la búsqueda de mecanismos para que los modelos de lenguaje no solo ejecuten tareas, sino que aprendan de manera más eficiente a partir de su propia experiencia. David Silver y Richard Sutton, dos de las figuras más influyentes en el campo del aprendizaje por refuerzo, argumentaron en 2025 que el próximo gran salto en inteligencia artificial no vendrá de más datos estáticos ni de modelos más grandes, sino de agentes que generen su propio flujo de experiencias y aprendan de ellas de forma continua.

En ese contexto, ERL se diferencia de trabajos previos que exploraron la reflexión en modelos de lenguaje como los sistemas Reflexion o Self-Refine, publicados ambos en 2023. Esos enfoques utilizaban la reflexión en el momento de la inferencia, es decir, cuando el modelo ya está desplegado y respondiendo consultas reales. El problema es que ese esquema requiere que el mecanismo reflexivo esté presente en todo momento, lo cual incrementa los costos operativos y la latencia de las respuestas. ERL invierte la lógica: la reflexión opera durante el entrenamiento, y sus efectos persisten en el modelo incluso cuando ya no está disponible.

Hay también una conexión con los métodos de destilación, en los que un modelo con mayor capacidad o información transfiere su conocimiento a un sistema más simple. En ERL, el modelo reflexivo que genera la segunda tentativa actúa como su propio maestro, destilando las correcciones hacia la política base que operará en producción. Es un caso de autodestilación selectiva, donde maestro y alumno son la misma entidad en dos momentos distintos de un ciclo de aprendizaje.

El método de optimización subyacente utilizado en los experimentos es GRPO, siglas de Group Relative Policy Optimization, u optimización de política por grupo relativo, una variante del aprendizaje por refuerzo desarrollada por el equipo de DeepSeek y presentada inicialmente en el trabajo DeepSeekMath en 2024. ERL no reemplaza ese mecanismo: lo enriquece, añadiendo el ciclo reflexivo por encima de la arquitectura de optimización existente. Esto garantiza compatibilidad con los flujos de trabajo de entrenamiento ya establecidos en la industria.

La dimensión humana de un ciclo computacional

Hay algo llamativo en la forma en que este trabajo recupera un concepto pedagógico del siglo XX para resolver uno de los problemas más arduos de la computación contemporánea. Kolb no diseñó su modelo de aprendizaje experiencial pensando en sistemas computacionales: lo desarrolló observando cómo los seres humanos aprenden a través de la práctica, la observación y la conceptualización. Su ciclo, que pasó décadas siendo una herramienta del diseño educativo y la psicología organizacional, resulta ahora ser una descripción sorprendentemente precisa de lo que un sistema artificial necesita para aprender con eficiencia.

Esto plantea preguntas más profundas que las que el paper mismo aborda. Si los mecanismos que hacen eficiente el aprendizaje humano resultan ser también eficaces para el aprendizaje de las máquinas, ¿qué nos dice eso sobre la naturaleza del aprendizaje como fenómeno? No se trata de una pregunta meramente filosófica: tiene implicaciones directas para el diseño de sistemas artificiales más capaces y para la comprensión de cómo emerge el comportamiento inteligente en sistemas complejos.

El trabajo también subraya la importancia del lenguaje como substrato del pensamiento, no solo como su producto. En ERL, la reflexión no ocurre en un espacio matemático abstracto de vectores y gradientes: ocurre en texto. El modelo escribe en lenguaje natural lo que cree que falló, lo que debería intentar de otro modo, qué reglas parecen gobernar el entorno. Ese texto es funcional, no decorativo: realmente guía el comportamiento posterior. Es un argumento implícito a favor de la idea de que, al menos para cierta clase de problemas, el razonamiento verbal es un modo de procesamiento genuinamente poderoso, no solo una interfaz de salida.

Los límites del enfoque y las preguntas abiertas

Como cualquier trabajo de investigación honesto, ERL no pretende haber resuelto todos los problemas. Los autores reconocen varias limitaciones que delimitan el alcance actual del método y señalan las preguntas que deberán abordarse en iteraciones futuras.

La más evidente es la escalabilidad de la memoria reflexiva. En los experimentos actuales, el sistema almacena reflexiones exitosas como texto plano y las usa directamente como contexto para episodios futuros. Este mecanismo funciona bien en entornos acotados, pero su comportamiento en escenarios más diversos y de largo horizonte es incierto. Versiones más sofisticadas del sistema podrían incorporar estructuras de memoria agentica donde las reflexiones se indexan y recuperan selectivamente según su relevancia, y se actualizan mediante reglas explícitas en lugar de simples sobrescrituras.

Hay también una tensión que el análisis de ablación pone de manifiesto: la calidad de la memoria acumulada depende de la calidad de las reflexiones que se almacenan. Si el modelo genera reflexiones imprecisas en las etapas tempranas del entrenamiento, esas reflexiones pueden contaminar episodios posteriores y dificultar la convergencia. La solución implementada, guardar únicamente las reflexiones asociadas a intentos exitosos, mitiga parcialmente este riesgo, pero no lo elimina por completo.

También está la cuestión del costo computacional. ERL requiere dos intentos por tarea durante el entrenamiento, además de la generación de una reflexión intermedia. Los investigadores equilibraron este costo asignando la mitad de los recursos de muestreo al método convencional, de modo que ambos métodos consumieran el mismo cómputo total. Pero en entornos de producción industrial con miles de millones de parámetros y conjuntos de datos de entrenamiento masivos, la gestión precisa de ese costo adicional requerirá atención específica.

Finalmente, las tareas evaluadas, aunque cuidadosamente diseñadas para ser exigentes, corresponden a entornos relativamente controlados. FrozenLake y Sokoban son juegos de cuadrícula; HotpotQA, aunque más cercana al mundo real, es un banco de preguntas estructurado. La pregunta de cómo se comportará ERL en entornos completamente abiertos, con retroalimentación ruidosa, objetivos ambiguos y dinámicas cambiantes, permanece abierta. Los autores son explícitos al respecto: este trabajo establece una prueba de concepto y un conjunto de resultados sólidos en condiciones controladas, no una solución universal.

La convergencia de dos tradiciones

ERL puede leerse también como un síntoma de una convergencia más amplia que está ocurriendo en la investigación: el acercamiento entre los métodos de aprendizaje por refuerzo, que históricamente se desarrollaron para controlar agentes en entornos físicos simulados, y los modelos de lenguaje, que emergieron de una tradición completamente distinta basada en el procesamiento estadístico de texto.

Durante años, esas dos ramas coexistieron con escasa comunicación. El aprendizaje por refuerzo tenía robots y videojuegos; los modelos de lenguaje tenían corpus de texto y tareas de predicción. La fusión comenzó en serio con el entrenamiento mediante retroalimentación humana que DeepMind, OpenAI y otros laboratorios incorporaron a sus sistemas de conversación, y se aceleró con sistemas como los modelos de razonamiento de OpenAI o el propio DeepSeek-R1, que demostraron que el refuerzo podía guiar el razonamiento lingüístico hacia capacidades nuevas.

ERL da un paso más en esa dirección al llevar al interior del ciclo de refuerzo un mecanismo fundamentalmente lingüístico: la reflexión verbal. No se trata de agregar texto como entrada adicional a una función matemática, sino de reconocer que el lenguaje puede ser él mismo el medio a través del cual un sistema artificial organiza, revisa y consolida su comprensión del mundo.

Lo que distingue a este trabajo de una demostración técnica más es su capacidad para articular, con precisión experimental, una idea que hasta ahora permanecía en el plano de la intuición: que la diferencia entre aprender a memorizar respuestas y aprender a razonar sobre ellas no es solo de grado, sino de naturaleza. Y que dotar a una máquina de esa segunda capacidad requiere algo más que más datos o más parámetros. Requiere, al parecer, algo parecido a la capacidad de pensar sobre el propio pensamiento.

Por qué este trabajo importa más allá del laboratorio

Los números que produce ERL son impresionantes, pero su significado va más allá de los benchmarks. Lo que este trabajo sugiere es que existe un camino técnicamente viable hacia sistemas de inteligencia artificial que mejoran no solo por acumulación de ejemplos, sino por reflexión sobre su propia experiencia. Eso tiene consecuencias directas en la forma en que se diseñan, entrenan y despliegan los modelos que ya están integrados en herramientas de uso cotidiano.

En el horizonte inmediato, ERL ofrece a los equipos de desarrollo una metodología concreta para mejorar la eficiencia del entrenamiento sin necesidad de escalar indefinidamente el tamaño de los modelos ni los volúmenes de datos. En un momento en que los costos computacionales del entrenamiento de grandes sistemas son una preocupación central de la industria, esa posibilidad tiene un valor práctico que va más allá del interés académico.

A mediano plazo, el principio que ERL encarna, que los sistemas artificiales pueden aprender de manera más duradera si internalizan correcciones razonadas en lugar de limitarse a ajustar parámetros según señales numéricas, podría influir en el diseño de agentes autónomos para aplicaciones médicas, jurídicas, científicas y educativas. En todos esos dominios, la capacidad de aprender de los errores de forma sistemática y articulada no es un detalle técnico: es un requisito de confiabilidad.

A largo plazo, el trabajo abre una pregunta que la comunidad científica deberá abordar con creciente urgencia: si los sistemas artificiales pueden reflexionar sobre sus propias acciones y modificar su comportamiento en consecuencia, ¿qué nivel de supervisión humana sigue siendo necesario, y en qué forma debe ejercerse? ERL no responde esa pregunta, pero la hace más concreta y más urgente que antes. Y eso, en sí mismo, es ya una contribución.

Referencias

Shi, T., Chen, S., Jiang, B., Song, L., Yang, L., y Zhao, J. (2026). Experiential Reinforcement Learning. arXiv:2602.13949v1 [cs.LG]. https://arxiv.org/abs/2602.13949

Kolb, D. A. (2014). Experiential Learning: Experience as the Source of Learning and Development (2.ª ed.). Pearson Education.

Silver, D., y Sutton, R. S. (2025). Welcome to the Era of Experience. Google DeepMind.

Shinn, N., Cassano, F., Labash, A., Gopinath, A., Narasimhan, K., y Yao, S. (2023). Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36.

Madaan, A., Tandon, N., Gupta, P., Hallinan, S., Gao, L., Wiegreffe, S., Alon, U., Dziri, N., Prabhumoye, S., Yang, Y., Welleck, S., Majumder, B. P., Gupta, H., Yazdanbakhsh, A., y Clark, P. (2023). Self-Refine: Iterative refinement with self-feedback. Advances in Neural Information Processing Systems, 36.

Un nuevo entrenamiento hace que la IA recuerde por qué se equivocó