Por varios años, el entrenamiento de modelos avanzados se pareció a una industria pesada. Había que reunir montañas de datos, limpiarlos, etiquetarlos, puntuar respuestas, contratar evaluadores, consolidar preferencias y, recién entonces, volver a entrenar. OpenClaw-RL entra por una puerta lateral y pregunta algo bastante más incómodo: si un asistente ya conversa con una persona, ejecuta comandos, manipula herramientas y recibe reacciones del entorno a cada paso, ¿por qué desperdiciar esa señal y seguir comportándose como si el aprendizaje tuviera que ocurrir siempre en otra parte, en otro momento y con otro presupuesto?
Ese es el corazón del trabajo presentado por Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang y Ling Yang. El sistema parte de una observación tan evidente que casi resulta irritante: después de cada acción llega un estado siguiente. Puede ser una respuesta del usuario, el resultado de una llamada a una herramienta, la salida de una consola, una traza de error o un cambio en una interfaz gráfica. La mayor parte de los agentes usa ese material solo como contexto para el próximo turno. OpenClaw-RL intenta hacer algo más ambicioso: tratarlo como materia prima de entrenamiento en vivo.
La propuesta aparece en un momento ideal para llamar la atención. Los agentes que operan terminales, repositorios, herramientas y escritorios dejaron de ser una demo simpática. Claude Code se presenta como un agente de codificación que entiende un proyecto completo y ejecuta tareas en terminal e IDE. Codex CLI avanza en la misma dirección con un flujo conversacional dentro de la consola. OpenClaw, la plataforma sobre la que se monta este trabajo, se vende como un asistente personal que puede vivir en múltiples canales, desde mensajería hasta dispositivos móviles. Ese ecosistema vuelve más urgente una vieja pregunta: no tanto cómo hacer que un modelo actúe, sino cómo lograr que mejore mientras actúa.
La pieza que faltaba
El paper divide esas señales posteriores a cada acción en dos familias. La primera es evaluativa. Si un usuario repite una pregunta, probablemente no quedó conforme. Si una prueba pasa, hubo un acierto. Si aparece una traza de error, algo salió mal. Esa información se convierte en una recompensa escalar mediante un juez de proceso, o PRM. La segunda familia es directiva, bastante más rica. Cuando alguien corrige con un “debía haber revisado el archivo antes” no solo comunica que la respuesta fue deficiente; también indica en qué dirección concreta debía ir la corrección. Ahí entra un mecanismo bautizado Hindsight-Guided On-Policy Distillation, u OPD, que resume esa pista y la transforma en supervisión a nivel de token.
La novedad no está solo en la intuición, sino en la ingeniería. OpenClaw-RL se apoya sobre slime, un framework de post entrenamiento para escalado de RL, y desacopla el sistema en cuatro bucles asíncronos: servicio del modelo, entorno, evaluación con juez y entrenamiento. Dicho de otro modo, el asistente sigue respondiendo mientras otro componente puntúa la interacción anterior y otro aplica actualizaciones. El trabajo insiste en que no hay interrupción del servicio ni coordinación bloqueante entre piezas. La frase suena a folleto técnico, pero ahí está el verdadero truco: si el entrenamiento en vivo agrega latencia, la magia se termina en el primer usuario impaciente.
El esquema sirve para dos mundos muy distintos. En el primero, el más seductor para producto, el agente personal vive cerca del usuario y aprende de sus conversaciones, sus rectificaciones y sus preferencias de estilo. En el segundo, más industrial, la misma infraestructura se usa para agentes de terminal, interfaces gráficas, ingeniería de software y llamadas a herramientas, entornos donde lo que llega después de cada acción es mucho más estructurado: códigos de salida, tests, diffs, diagnósticos del compilador, estados visuales. El paper insiste en que no se trata de problemas separados, sino de una sola familia de interacciones expresadas con disfraces distintos.
Hay, además, una diferencia importante frente a la vieja obsesión por el resultado final. En tareas largas, la recompensa clásica suele aparecer al final de la trayectoria, cuando ya es tarde para entender con precisión qué paso fue bueno y cuál hundió la ejecución. El trabajo apuesta a recompensas de proceso, turno por turno. Esa granularidad es decisiva para agentes que abren archivos, ejecutan comandos, inspeccionan interfaces o van corrigiendo código. No resuelve por sí sola el problema de crédito, pero lo vuelve mucho menos ciego.
Los números detrás del entusiasmo
El paper no se limita a una arquitectura elegante. También muestra resultados, aunque conviene mirarlos sin inhalar demasiado marketing. En la pista de agentes personales, los autores simulan dos perfiles. Uno es un estudiante que usa OpenClaw para resolver tareas y no quiere sonar como alguien que copió la respuesta de un asistente. El otro es un docente que desea comentarios específicos y amables al corregir trabajos. Ambos escenarios se montan con modelos que simulan usuario y entorno, y la evaluación se hace sobre problemas de GSM8K y tareas de corrección.
Ahí aparece uno de los datos más fuertes del artículo. El puntaje base de personalización arranca en 0,17. Tras 16 actualizaciones, Binary RL apenas llega a 0,23. OPD salta a 0,72. La combinación de ambos métodos, que mezcla cobertura amplia con corrección fina, escala a 0,81. La moraleja no es que la recompensa binaria no sirva, sino que sola parece demasiado tosca cuando el objetivo es afinar tono, estilo y comportamiento conversacional. En ese terreno, la pista lingüística contenida en la corrección vale más que un simple pulgar arriba o abajo.
La velocidad del ajuste también es parte del argumento comercial. Los autores sostienen que en el escenario del estudiante bastan 36 interacciones para que el agente abandone frases demasiado acartonadas y respuestas con estructura sospechosamente prolija. En el caso del docente, 24 interacciones alcanzan para volver la devolución más cálida y detallada. Es un resultado llamativo porque comprime el ciclo de personalización a una escala que suena compatible con uso cotidiano, no con meses de telemetría acumulada.
En la pista de agentes generales, el trabajo ensaya con terminal, GUI, SWE y tool calling. Usa Qwen3 en distintas variantes, y se apoya en SETA RL data, OSWorld-Verified, SWE-Bench-Verified y DAPO RL data. La infraestructura corre con 128 entornos paralelos para terminal, 64 para GUI y SWE, y 32 para tool calling. El dato relevante aquí no es una cifra espectacular, sino un patrón: cuando se combinan recompensas de resultado y de proceso, el desempeño sube. En tool calling pasa de 0,17 a 0,30. En GUI mejora de 0,31 a 0,33. Son ganancias modestas en valor absoluto, pero coherentes con la tesis central del paper.
Lo que el paper sugiere, pero todavía no demuestra del todo
Los resultados personales son promisorios, aunque descansan en simulaciones y no en una población amplia de usuarios reales. Los resultados de agentes generales muestran mejoras, aunque aún están lejos de cualquier noción triunfalista de autonomía robusta. El propio trabajo reconoce un costo operativo: alojar un PRM consume recursos extra. También queda abierta una dificultad más mundana, la de separar una corrección útil de una reacción ambigua, caprichosa o directamente errónea. Aprender de todo lo que llega es una tentación; aprender bien de lo que llega sigue siendo el problema serio.
Ese matiz importa. OpenClaw-RL no demuestra que el viejo pipeline de entrenamiento haya muerto. Demuestra algo más realista y quizá más importante: que hay señal desaprovechada circulando a cada instante en la interacción normal, y que capturarla de forma ordenada puede producir mejoras medibles. En un ecosistema donde cada laboratorio promete agentes más autónomos, esa conclusión vale más que un benchmark maquillado.
Lo que viene después del dataset
La ambición de fondo no es técnica, sino estratégica. Si este enfoque prospera, el cuello de botella del entrenamiento deja de ser la recolección manual y se desplaza hacia la interpretación de la reacción. Eso cambia la economía del sector. Un asistente personal podría afinarse con el estilo de una sola persona sin esperar una nueva corrida de fine tuning centralizada. Un agente corporativo podría aprender de sus fallos en repositorios, terminales y suites de pruebas con mucha más continuidad. El campo pasaría de grandes campañas periódicas de alineación a una lógica de mantenimiento vivo.
Ese movimiento encaja con la dirección general del mercado. Las plataformas más visibles ya no quieren limitarse a responder preguntas. Quieren abrir archivos, escribir código, ejecutar scripts, tocar herramientas externas y moverse por interfaces. En ese contexto, la frontera competitiva deja de ser únicamente quién genera el texto más convincente y empieza a ser quién construye el ciclo de mejora más veloz. Un agente que falla y no aprende es una demo. Un agente que falla, lee la cicatriz y ajusta su conducta, empieza a parecer un producto.
Claro que el asunto tiene letra chica, y no hace falta ponerse filosófico para verla. En asistentes personales, el entrenamiento continuo depende de datos sensibles, hábitos privados y contextos que no admiten filtraciones. En entornos de software, la retroalimentación puede ser ruidosa, parcial o fácil de contaminar. Un usuario puede corregir por gusto, no por precisión. Un test puede pasar y aun así dejar una mala solución escondida en el código. Una interfaz puede cambiar y volver engañosa la señal visual. El artículo no ignora estos problemas, pero todavía los trata más como desafíos de implementación que como límites demostrados por evidencia de campo.
También queda pendiente la vieja tensión entre especialización y deriva. Un asistente que se adapta con rapidez al tono de una persona puede volverse excelente para ese contexto y mediocre fuera de él. Un sistema que aprende de reconsultas y correcciones podría reforzar manías, sesgos locales o hábitos poco deseables si el filtro del juez falla. En otras palabras, convertir conversación en gradiente no elimina la necesidad de control de calidad. Solo la traslada a otro piso del edificio.
Con todo, sería un error leer OpenClaw-RL como una excentricidad académica. El paper toca una fibra muy concreta de la industria actual. Mientras la carrera por agentes más capaces multiplica entornos, herramientas y despliegues, el volumen de señales posteriores a cada acción crece de manera brutal. El trabajo dice que ahí hay una mina abierta. No promete una revolución instantánea. Propone algo más verosímil: que la próxima gran mejora no salga de un dataset secreto ni de un lote épico de etiquetas, sino de escuchar con atención lo que ocurre justo después del error.
Eso, en 2026, ya no suena como una nota al pie. Suena como el negocio entero.
Referencias
Wang, Yinjie; Chen, Xuyang; Jin, Xiaolong; Wang, Mengdi; Yang, Ling. OpenClaw-RL: Train Any Agent Simply by Talking, arXiv, 10 de marzo de 2026. https://arxiv.org/abs/2603.10165
Versión HTML del paper en arXiv, con descripción de la arquitectura, resultados y tablas experimentales. https://arxiv.org/html/2603.10165v1
Repositorio oficial de OpenClaw-RL en GitHub, con README técnico, instrucciones de despliegue y resumen de la propuesta. https://github.com/Gen-Verse/OpenClaw-RL
Repositorio oficial de OpenClaw, el asistente personal sobre el que se apoya la pista de personalización del paper. https://github.com/openclaw/openclaw
Sitio oficial de OpenClaw, con descripción de producto y canales soportados. https://openclaw.ai/
Repositorio oficial de slime, framework de post entrenamiento para escalado de RL usado como base de la arquitectura asíncrona. https://github.com/THUDM/slime
Wang, Yinjie; Xie, Tianbao; Shen, Ke; Wang, Mengdi; Yang, Ling. RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System, arXiv, 2026. https://arxiv.org/abs/2602.02488
SETA, entorno y datos para agentes de terminal, repositorio CAMEL-AI. https://github.com/camel-ai/seta
Xie, Tianbao et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, NeurIPS 2024. https://papers.nips.cc/paper_files/paper/2024/hash/8fc636344aab64ecff840445683d7e88-Abstract-Datasets_and_Benchmarks_Track.html
Jimenez, Carlos E. et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, arXiv, 2023. https://arxiv.org/abs/2310.06770
Claude Code, documentación oficial de Anthropic, como ejemplo de la expansión de agentes que operan repositorios y terminales. https://docs.anthropic.com/es/docs/claude-code/overview
Codex CLI, documentación oficial de OpenAI, como referencia del avance de agentes de desarrollo que trabajan en la consola local. https://developers.openai.com/codex/cli/



