De la fragilidad del experto a la robustez del aprendiz

En el imaginario colectivo, la inteligencia artificial aprende de la perfección. Alimentamos a las máquinas con ejemplos inmaculados, demostraciones de maestros de Go, millones de radiografías etiquetadas por expertos y conducciones impecables. Este es el paradigma dominante del "aprendizaje por imitación" (Imitation Learning): muéstrale a un robot cómo se hace algo perfectamente, y el robot lo hará perfectamente. Sin embargo, este enfoque tiene un talón de Aquiles, uno que ha frenado drásticamente el despliegue de robots verdaderamente útiles fuera de los entornos controlados de un laboratorio. El mundo real no es perfecto; es caótico, impredecible y está lleno de errores.

¿Qué sucede cuando un robot entrenado para recoger una taza que siempre está boca arriba se la encuentra volcada? Falla. ¿Qué pasa si la bandeja de piezas está ligeramente desplazada? Falla. El aprendizaje por imitación puro crea "expertos frágiles", máquinas increíblemente competentes en una tarea exacta bajo condiciones exactas, pero absolutamente inútiles ante la más mínima desviación. Para que un robot funcione en una casa o una fábrica real, no solo debe saber cómo hacer la tarea bien, sino cómo recuperarse cuando las cosas salen mal. Y para aprender a recuperarse, paradójicamente, necesita aprender de los errores.

Aquí es donde entra en juego una investigación revolucionaria que redefine nuestra comprensión del aprendizaje automático. Un reciente paper titulado "Using Non-Expert Data to Robustify Imitation Learning via Offline Reinforcement Learning" (Usando Datos de No-Expertos para Robustecer el Aprendizaje por Imitación mediante Aprendizaje por Refuerzo Desconectado), nos ofrece una solución tan elegante como contraintuitiva. El trabajo propone una metodología, apodada RISE (Robust Imitation by Stitching from Experts, o Imitación Robusta mediante "Costura" desde Expertos), que enseña a los robots a ser robustos haciendo exactamente lo que antes se consideraba impensable: aprender del "desorden".

La idea central es audaz: en lugar de desechar los datos "malos" (demostraciones fallidas, intentos a medias, o incluso un operario simplemente "jugando" con los objetos sin un objetivo claro), el sistema los atesora. Estos datos "no expertos", aunque inútiles para enseñar el objetivo final de la tarea, son una mina de oro para enseñar al robot la física del mundo. Son el manual de instrucciones de cómo se comporta una taza cuando se cae, cómo se desliza un tornillo si se agarra mal o cómo se siente empujar un cajón que está atascado.

RISE funciona como un maestro tejedor. Toma los hilos de oro de las demostraciones expertas (el "qué hacer") y los "cose" meticulosamente con los miles de hilos de distintos colores de los datos no expertos (el "qué pasa si..."). Utiliza una técnica avanzada llamada Aprendizaje por Refuerzo Desconectado (Offline Reinforcement Learning u Offline RL) no para aprender la tarea desde cero, sino como un "discriminador" inteligente. El Offline RL actúa como un juez que mira cualquier situación en la se encuentra el robot y se pregunta: "¿Se parece esto a algo que haría un experto? Si no, ¿puedo usar algún trozo de los datos 'malos' para volver a un estado donde sí sepa qué hacer?".

De esta forma, el robot aprende a construir "puentes" conceptuales. Si se encuentra con la taza volcada (un estado que solo ha visto en los datos de juego), su sistema de RL desconectado identifica una acción en esos mismos datos (ej. "enderezar taza") que lo lleva a un estado que sí reconoce (la taza de pie). Una vez allí, la política de imitación experta toma el control y completa la tarea. El resultado es un sistema que posee la precisión de un experto pero la resiliencia de un principiante que ha cometido todos los errores posibles. Es una fusión de lo mejor de ambos mundos, un salto cuántico desde la fragilidad del laboratorio a la robustez del mundo real.

El pecado original de la imitación

El aprendizaje por imitación (IL) tradicional, a menudo implementado como "Clonación de Comportamiento" (Behavior Cloning), es fundamentalmente simple. Funciona como un estudiante que memoriza las respuestas de un examen sin entender las preguntas. El sistema observa pares de (estado, acción) de un experto (ej. "si ves la taza en la posición A, mueve la pinza a la posición B") y aprende a mapear esa entrada a esa salida. Mientras las condiciones del examen (la tarea) sean idénticas a las de sus apuntes (los datos de entrenamiento), el éxito está garantizado. Pero la primera pregunta inesperada revela la falta de comprensión subyacente.

Este problema se conoce como el "desajuste de distribución" (distributional shift). Los datos de expertos cubren un camino muy estrecho y específico a través del inmenso espacio de todas las posibilidades. Tan pronto como el robot comete un pequeño error o el entorno cambia, se sale de ese camino estrecho y entra en un territorio desconocido para el que no tiene datos. Al no saber qué hacer, es probable que cometa otro error, alejándose aún más del camino, en una cascada de fallos de la que no puede recuperarse.

La solución obvia parecería ser simplemente recopilar más datos de expertos, que cubran todas las posibles variaciones y errores. Pero esto es impracticable. El coste de recopilar millones de demostraciones expertas para cada posible error (la taza volcada a 30 grados, a 31, a 32...) es astronómico e infinito. Esta dependencia de datos prístinos y costosos es el "pecado original" que ha limitado la escalabilidad de la robótica basada en la imitación.

Gráfico 1: El dilema de los datos de entrenamiento

Los datos de expertos ofrecen alto rendimiento pero cubren muy pocas situaciones (baja cobertura). Los datos de no-expertos son lo opuesto. El desafío es combinar ambos para lograr un alto rendimiento y una alta cobertura.

El problema no es solo que el mundo real sea variable. Es que la cantidad de variaciones posibles es astronómicamente grande. Es imposible para un equipo de operadores humanos demostrar cómo recoger una taza desde todos los ángulos posibles, con todos los fondos posibles, bajo todas las condiciones de iluminación posibles y con todos los obstáculos concebibles. La búsqueda de la "cobertura" total de datos a través de demostraciones expertas es una quimera. Este callejón sin salida ha obligado a la comunidad científica a buscar una fuente de datos que sea, por naturaleza, diversa y abundante, incluso si no es perfecta.

La sabiduría oculta en el caos

Los datos "no expertos" son el polo opuesto. Son baratos, abundantes y, lo más importante, diversos. El paper clasifica varios tipos de estos datos:

Datos de "juego" (Play data): Un operador humano (o incluso una política aleatoria) simplemente interactúa con los objetos de la escena sin ningún objetivo. Mueve la taza, la vuelca, la desliza, abre y cierra el cajón vacío. Estos datos no enseñan cómo hacer la tarea, pero sí enseñan la "dinámica" del entorno: qué pasa cuándo mueves las cosas.
Demostraciones subóptimas: Un principiante intenta hacer la tarea. Lo intenta, falla, quizás lo logra, pero de forma torpe e ineficiente.
Datos de tareas parciales: Demostraciones que solo completan una parte de la tarea, como abrir el cajón pero nunca meter la taza.

Individualmente, estos conjuntos de datos son inútiles para la clonación de comportamiento. Un robot que imite los datos de "juego" se limitaría a mover objetos al azar. Pero colectivamente, estos datos "garabatean" en casi todo el mapa de posibilidades, proporcionando una cobertura que los datos de expertos jamás podrían soñar.

Imaginemos dos demostraciones. Un experto abre un cajón y mete una taza. Un no-experto intenta meter la taza, pero falla y la taza cae de lado. Un sistema de imitación simple, al observar la primera demostración, aprendería a "abrir cajones" como objetivo final. Al ver la segunda, asumiría que el mundo "empieza con el cajón abierto". Ninguno de los dos es robusto. El valor de este "desorden" de datos es que proporciona un mapa mucho más rico de lo posible. Mientras que los datos de expertos son una sola línea fina y perfecta dibujada en un vasto mapa en blanco, los datos de no expertos son como miles de garabatos que exploran todo el territorio. El desafío, por supuesto, es cómo usar esos garabatos para encontrar la ruta óptima. El mapa está ahí, pero falta la brújula.

Concepto: El Dilema de los Datos de Entrenamiento

Datos de Expertos (Imitación Pura)

Calidad: Alta (Rendimiento óptimo)
Cobertura: Muy Baja (Frágil ante la novedad)
Coste: Muy Alto

Datos de No-Expertos (Juego, Errores)

Calidad: Baja (Rendimiento subóptimo)
Cobertura: Muy Alta (Explora muchos estados)
Coste: Muy Bajo

El Desafío: ¿Cómo usar la alta cobertura de los datos "malos" para robustecer la alta calidad de los datos "buenos"?

El motor de la discriminación: El aprendizaje por refuerzo desconectado

La brújula que proponen los investigadores es el aprendizaje por refuerzo desconectado (Offline RL). Para entender su importancia, primero debemos distinguirlo del aprendizaje por refuerzo "en línea" (Online RL), la técnica que impulsó a sistemas como AlphaGo a la fama mundial. El RL en línea es un explorador activo: aprende cometiendo errores en tiempo real. Juega una partida de Go, pierde, ajusta su estrategia y vuelve a jugar. Repite este ciclo millones de veces, recopilando sus propios datos a medida que mejora.

El RL desconectado (offline), por el contrario, es un historiador. No puede explorar ni recopilar datos nuevos. Debe aprender de un conjunto de datos fijo y preexistente, como el que se ha descrito (una mezcla de datos expertos y no expertos). Su tarea es mirar ese "historial" caótico y, sin experimentar por sí mismo, deducir cuál es la mejor política de acción posible. Suena a magia, pero es una de las áreas más candentes de la investigación en IA.

El equipo detrás de RISE utiliza el Offline RL de una manera muy astuta. No le piden que aprenda toda la tarea de manipulación desde cero. En su lugar, le dan una recompensa binaria simple: todas las acciones que provienen del conjunto de datos de expertos reciben una recompensa de "+1" (esto es "bueno"), y todas las acciones de los datos de no expertos reciben una recompensa de "0" (esto es "neutral").

El algoritmo de RL (específicamente, una variante llamada IDQL o Implicit Q-Learning) procesa todos los datos. Al hacerlo, aprende una "función de valor" o "función Q". Esta función, en esencia, predice la recompensa futura esperada desde cualquier estado. Gracias a la recompensa "+1", los estados y acciones que se parecen a los del experto obtienen un valor alto. Los estados de error (como la taza volcada) obtienen un valor bajo, pero no negativo. El sistema aprende que, aunque estar en un estado de error no es óptimo, las acciones que se ven en los datos de juego (como enderezar la taza) conducen a estados que sí tienen un valor alto. Así es como se construye el "puente".

RISE: La técnica de "costura" (stitching)

La arquitectura de RISE es un híbrido. Mantiene la política de imitación experta (una red neuronal de difusión, que es muy potente generando movimientos precisos) como su "actor" principal. Pero la aumenta con este "crítico" (la función de valor del RL desconectado) que ha aprendido de todos los datos.

Cuando el robot está funcionando, la política de imitación propone una acción. Pero antes de ejecutarla, el crítico de RL la evalúa. Si el crítico dice "esta acción te mantiene en un estado de alto valor, parecido al del experto", la acción se ejecuta. Pero si el robot se encuentra en un estado de bajo valor (un error), el crítico busca en su "mapa" (aprendido de los datos no expertos) una acción alternativa que lo "cosa" (stitch) de nuevo a la trayectoria del experto.

Al mismo tiempo, utiliza el vasto conjunto de datos de no expertos no para imitar, sino para aprender las transiciones. Aprende la "física" del mundo a partir de los datos de juego y los intentos fallidos. Aquí es donde ocurre la "costura".

Concepto: La Lógica de "Costura" (Stitching) de RISE

1. ESTADO DE ERROR (Ej: Taza volcada)

(Situación vista solo en datos de No-Expertos)

↓

2. ACCIÓN DE "PUENTE" (Ej: Levantar la taza)

(Acción aprendida de los datos de No-Expertos para corregir el error)

↓

3. REGRESO A LA RUTA ÓPTIMA (Ej: Taza de pie)

(Estado conocido por los datos de Expertos, que ahora se puede seguir)

El sistema puede razonar de la siguiente manera: "Mi objetivo, aprendido del experto, es tener el bloque dentro del agujero. Esa situación tiene un valor de 100. Ahora mismo, el bloque está volcado, una situación que el experto nunca experimentó. Sin embargo, en los datos de 'juego', he visto una acción (un agarre lateral) que puede tomar un bloque volcado y ponerlo de pie. Y una vez que está de pie, se parece a un estado que el experto sí conocía. Por lo tanto, 'coseré' la acción del no experto (levantar el bloque) con la política del experto (insertar el bloque)".

Para que esta "costura" funcione en el mundo real, donde los estados nunca son exactamente idénticos, los investigadores introdujeron dos innovaciones cruciales. Primero, "ensanchan" artificialmente la distribución de acciones mediante aumentación de datos (si la acción A es buena en el estado S, probablemente sea una acción decente en un estado S' muy similar). Segundo, aplican una técnica llamada "normalización espectral" a las redes neuronales, lo que las obliga a ser más "suaves" (Lipschitz-continuas), garantizando que pequeños cambios en la entrada (la visión del robot) no provoquen cambios drásticos y erráticos en la salida (la acción del robot). Esto hace que las "costuras" sean mucho más estables.

Resultados: De la fragilidad a la robustez

En las pruebas de simulación, los resultados fueron drásticos. Los robots se enfrentaron a tareas como la limpieza de tazas, el ensamblaje de piezas o la inserción de clavijas en agujeros. Los métodos de imitación puros (clonación de comportamiento) que solo usaban los pocos datos de expertos fallaban miserablemente tan pronto como las condiciones iniciales cambiaban. Los métodos de RL desconectado estándar, abrumados por los datos subóptimos, a menudo aprendían a no hacer nada o a copiar los malos comportamientos. RISE, sin embargo, prosperó.

Gráfico 2: Tasa de éxito en simulación (entornos variables)

RISE demuestra una tasa de éxito drásticamente mayor al combinar datos de expertos y no-expertos, superando a los métodos que solo usan datos de expertos o a los enfoques estándar de RL desconectado.

Al combinar solo unas pocas demostraciones de expertos con un gran volumen de datos de juego y demostraciones subóptimas, superó a todos los demás métodos por un margen significativo, logrando una tasa de éxito casi perfecta. El sistema demostró una verdadera robustez. No importaba si el bloque estaba volcado, si la taza estaba en un ángulo extraño o si el cajón estaba a medio cerrar. El robot, habiendo aprendido la "física" de su entorno a partir de los datos de juego y el "objetivo" a partir de los datos del experto, era capaz de navegar por estos estados imprevistos y encontrar un camino de regreso hacia el éxito.

Un hallazgo particularmente interesante fue la capacidad de RISE para el auto-mejoramiento (policy improvement). Los investigadores tomaron una política inicial mediocre, la usaron para recopilar más datos (algunos exitosos, muchos fallidos), etiquetaron los éxitos con "+1" y los fallos con "0", y reentrenaron el sistema con RISE. El rendimiento mejoró significativamente en cada iteración. Esto abre la puerta a robots que pueden ser desplegados en el mundo, aprender de sus propios errores y mejorar continuamente sin necesidad de más intervención humana experta.

Las pruebas en el mundo real, utilizando un brazo robot Franka Panda en tareas de ensamblaje de muebles y plegado de ropa, confirmaron los hallazgos. RISE logró tasas de éxito mucho más altas, especialmente en tareas que requerían una recuperación de errores (como el ensamblaje de la pata de una mesa), en comparación con los métodos que ignoraban los datos no expertos.

El horizonte del aprendizaje impuro

El trabajo sobre RISE no es solo un avance técnico; es un cambio de paradigma filosófico. Nos dice que el camino hacia la competencia sobrehumana no reside en alimentarse únicamente de la perfección, sino en la capacidad de comprender y aprender de la imperfección. Durante décadas, el aprendizaje automático ha tenido una obsesión con los datos "limpios". Este paper demuestra que los datos "sucios", "desordenados" y "subóptimos" no son basura, sino un recurso crucial y subestimado.

Las implicaciones son inmensas. En lugar de gastar millones en curar conjuntos de datos perfectos, podríamos simplemente dejar que los robots (o los humanos) "jueguen" con los objetos, recopilando datos de cobertura masiva a bajo coste. Podríamos construir robots domésticos que aprendan a limpiar no solo de un manual de instrucciones, sino de observar nuestros propios intentos fallidos de limpiar un derrame. Las fábricas podrían tener robots que, en lugar de detener la producción ante un error, aprendan de los fallos de sus compañeros (humanos o máquinas) para robustecer su propio comportamiento.

Este enfoque también nos acerca un paso más a la forma en que los humanos realmente aprendemos. Un niño no aprende a apilar bloques viendo solo torres perfectas. Aprende viendo cómo se caen, por qué se caen y cómo volver a ponerlos. Aprende de la entropía. Al enseñar a las máquinas a "coser" el orden a partir del caos, no solo las estamos haciendo más robustas; las estamos haciendo, en un sentido muy práctico, más inteligentes.

Estamos entrando en la era del "aprendizaje impuro". Una era en la que la IA no solo imita a sus maestros, sino que aprende de la vasta y caótica biblioteca de nuestros errores colectivos. Y resulta que esa es una lección mucho más poderosa.

Referencias y Lecturas Adicionales

Artículo Principal:
Huang, K., Scalise, R., Winston, C., Agrawal, A., Zhang, Y., Baijal, R., Grotz, M., Boots, B., Burchfiel, B., Itkina, M., Shah, P., & Gupta, A. (2025). Using Non-Expert Data to Robustify Imitation Learning via Offline Reinforcement Learning. arXiv:2510.19495 [cs.RO].

Conceptos Clave (Aprendizaje por Refuerzo Desconectado):
Levine, S., Kumar, A., Tucker, G., & Fu, J. (2020). Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems. arXiv:2005.01643 [cs.LG].

Conceptos Clave (Aprendizaje por Imitación y Políticas de Difusión):
Chi, C., Feng, S., Du, Y., Xu, Z., Cousineau, E., Burchfiel, B., & Song, S. (2023). Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. Proceedings of Robotics: Science and Systems (RSS).

De la fragilidad del experto a la robustez del aprendiz