OpenClaw aprende durante el uso

El entrenamiento que empieza cuando el usuario corrige

OpenClaw-RL propone una idea incómodamente simple: cada rectificación del usuario, cada prueba fallida, cada salida de terminal y cada clic frustrado ya contienen la pista que faltaba para mejorar a un agente. El paper intenta convertir esa reacción cotidiana en aprendizaje continuo, sin esperar una nueva ronda de etiquetado manual ni el próximo gran dataset curado

Por el equipo editorial | 15 de marzo de 2026

Por varios años, el entrenamiento de modelos avanzados se pareció a una industria pesada. Había que reunir montañas de datos, limpiarlos, etiquetarlos, puntuar respuestas, contratar evaluadores, consolidar preferencias y, recién entonces, volver a entrenar. OpenClaw-RL entra por una puerta lateral y pregunta algo bastante más incómodo: si un asistente ya conversa con una persona, ejecuta comandos, manipula herramientas y recibe reacciones del entorno a cada paso, ¿por qué desperdiciar esa señal y seguir comportándose como si el aprendizaje tuviera que ocurrir siempre en otra parte, en otro momento y con otro presupuesto?

Ese es el corazón del trabajo presentado por Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang y Ling Yang. El sistema parte de una observación tan evidente que casi resulta irritante: después de cada acción llega un estado siguiente. Puede ser una respuesta del usuario, el resultado de una llamada a una herramienta, la salida de una consola, una traza de error o un cambio en una interfaz gráfica. La mayor parte de los agentes usa ese material solo como contexto para el próximo turno. OpenClaw-RL intenta hacer algo más ambicioso: tratarlo como materia prima de entrenamiento en vivo.

La propuesta aparece en un momento ideal para llamar la atención. Los agentes que operan terminales, repositorios, herramientas y escritorios dejaron de ser una demo simpática. Claude Code se presenta como un agente de codificación que entiende un proyecto completo y ejecuta tareas en terminal e IDE. Codex CLI avanza en la misma dirección con un flujo conversacional dentro de la consola. OpenClaw, la plataforma sobre la que se monta este trabajo, se vende como un asistente personal que puede vivir en múltiples canales, desde mensajería hasta dispositivos móviles. Ese ecosistema vuelve más urgente una vieja pregunta: no tanto cómo hacer que un modelo actúe, sino cómo lograr que mejore mientras actúa.

La pieza que faltaba

El paper divide esas señales posteriores a cada acción en dos familias. La primera es evaluativa. Si un usuario repite una pregunta, probablemente no quedó conforme. Si una prueba pasa, hubo un acierto. Si aparece una traza de error, algo salió mal. Esa información se convierte en una recompensa escalar mediante un juez de proceso, o PRM. La segunda familia es directiva, bastante más rica. Cuando alguien corrige con un “debía haber revisado el archivo antes” no solo comunica que la respuesta fue deficiente; también indica en qué dirección concreta debía ir la corrección. Ahí entra un mecanismo bautizado Hindsight-Guided On-Policy Distillation, u OPD, que resume esa pista y la transforma en supervisión a nivel de token.

La novedad no está solo en la intuición, sino en la ingeniería. OpenClaw-RL se apoya sobre slime, un framework de post entrenamiento para escalado de RL, y desacopla el sistema en cuatro bucles asíncronos: servicio del modelo, entorno, evaluación con juez y entrenamiento. Dicho de otro modo, el asistente sigue respondiendo mientras otro componente puntúa la interacción anterior y otro aplica actualizaciones. El trabajo insiste en que no hay interrupción del servicio ni coordinación bloqueante entre piezas. La frase suena a folleto técnico, pero ahí está el verdadero truco: si el entrenamiento en vivo agrega latencia, la magia se termina en el primer usuario impaciente.

        Lo que cambia de verdad: OpenClaw-RL no describe un nuevo modelo fundacional. Describe un cambio de régimen. El dato valioso ya no sería solo el corpus reunido antes del despliegue, sino la reacción que el sistema recibe mientras trabaja. En términos económicos, la corrección cotidiana pasaría de ser desperdicio operativo a insumo de mejora.
    

El esquema sirve para dos mundos muy distintos. En el primero, el más seductor para producto, el agente personal vive cerca del usuario y aprende de sus conversaciones, sus rectificaciones y sus preferencias de estilo. En el segundo, más industrial, la misma infraestructura se usa para agentes de terminal, interfaces gráficas, ingeniería de software y llamadas a herramientas, entornos donde lo que llega después de cada acción es mucho más estructurado: códigos de salida, tests, diffs, diagnósticos del compilador, estados visuales. El paper insiste en que no se trata de problemas separados, sino de una sola familia de interacciones expresadas con disfraces distintos.

Cada interacción genera una pista sobre cómo le fue al agente y, con frecuencia, también sobre cómo debería haber actuado. La tesis del paper consiste en dejar de tratar esa pista como ruido residual y empezar a usarla como combustible del siguiente ajuste. Idea central de OpenClaw-RL

Hay, además, una diferencia importante frente a la vieja obsesión por el resultado final. En tareas largas, la recompensa clásica suele aparecer al final de la trayectoria, cuando ya es tarde para entender con precisión qué paso fue bueno y cuál hundió la ejecución. El trabajo apuesta a recompensas de proceso, turno por turno. Esa granularidad es decisiva para agentes que abren archivos, ejecutan comandos, inspeccionan interfaces o van corrigiendo código. No resuelve por sí sola el problema de crédito, pero lo vuelve mucho menos ciego.

Los números detrás del entusiasmo

El paper no se limita a una arquitectura elegante. También muestra resultados, aunque conviene mirarlos sin inhalar demasiado marketing. En la pista de agentes personales, los autores simulan dos perfiles. Uno es un estudiante que usa OpenClaw para resolver tareas y no quiere sonar como alguien que copió la respuesta de un asistente. El otro es un docente que desea comentarios específicos y amables al corregir trabajos. Ambos escenarios se montan con modelos que simulan usuario y entorno, y la evaluación se hace sobre problemas de GSM8K y tareas de corrección.

Ahí aparece uno de los datos más fuertes del artículo. El puntaje base de personalización arranca en 0,17. Tras 16 actualizaciones, Binary RL apenas llega a 0,23. OPD salta a 0,72. La combinación de ambos métodos, que mezcla cobertura amplia con corrección fina, escala a 0,81. La moraleja no es que la recompensa binaria no sirva, sino que sola parece demasiado tosca cuando el objetivo es afinar tono, estilo y comportamiento conversacional. En ese terreno, la pista lingüística contenida en la corrección vale más que un simple pulgar arriba o abajo.

Comparación de desempeño reportada por el paper para la pista de agentes personales. El gráfico toma el puntaje base de 0,17 y muestra la evolución de Binary RL, OPD y el método combinado tras 8 y 16 actualizaciones. La ventaja aparece cuando el sistema no solo sabe si acertó, sino también cómo debía haber respondido.

La velocidad del ajuste también es parte del argumento comercial. Los autores sostienen que en el escenario del estudiante bastan 36 interacciones para que el agente abandone frases demasiado acartonadas y respuestas con estructura sospechosamente prolija. En el caso del docente, 24 interacciones alcanzan para volver la devolución más cálida y detallada. Es un resultado llamativo porque comprime el ciclo de personalización a una escala que suena compatible con uso cotidiano, no con meses de telemetría acumulada.

En la pista de agentes generales, el trabajo ensaya con terminal, GUI, SWE y tool calling. Usa Qwen3 en distintas variantes, y se apoya en SETA RL data, OSWorld-Verified, SWE-Bench-Verified y DAPO RL data. La infraestructura corre con 128 entornos paralelos para terminal, 64 para GUI y SWE, y 32 para tool calling. El dato relevante aquí no es una cifra espectacular, sino un patrón: cuando se combinan recompensas de resultado y de proceso, el desempeño sube. En tool calling pasa de 0,17 a 0,30. En GUI mejora de 0,31 a 0,33. Son ganancias modestas en valor absoluto, pero coherentes con la tesis central del paper.

Lo que el paper sugiere, pero todavía no demuestra del todo

Los resultados personales son promisorios, aunque descansan en simulaciones y no en una población amplia de usuarios reales. Los resultados de agentes generales muestran mejoras, aunque aún están lejos de cualquier noción triunfalista de autonomía robusta. El propio trabajo reconoce un costo operativo: alojar un PRM consume recursos extra. También queda abierta una dificultad más mundana, la de separar una corrección útil de una reacción ambigua, caprichosa o directamente errónea. Aprender de todo lo que llega es una tentación; aprender bien de lo que llega sigue siendo el problema serio.

Ese matiz importa. OpenClaw-RL no demuestra que el viejo pipeline de entrenamiento haya muerto. Demuestra algo más realista y quizá más importante: que hay señal desaprovechada circulando a cada instante en la interacción normal, y que capturarla de forma ordenada puede producir mejoras medibles. En un ecosistema donde cada laboratorio promete agentes más autónomos, esa conclusión vale más que un benchmark maquillado.

Lo que viene después del dataset

La ambición de fondo no es técnica, sino estratégica. Si este enfoque prospera, el cuello de botella del entrenamiento deja de ser la recolección manual y se desplaza hacia la interpretación de la reacción. Eso cambia la economía del sector. Un asistente personal podría afinarse con el estilo de una sola persona sin esperar una nueva corrida de fine tuning centralizada. Un agente corporativo podría aprender de sus fallos en repositorios, terminales y suites de pruebas con mucha más continuidad. El campo pasaría de grandes campañas periódicas de alineación a una lógica de mantenimiento vivo.

Ese movimiento encaja con la dirección general del mercado. Las plataformas más visibles ya no quieren limitarse a responder preguntas. Quieren abrir archivos, escribir código, ejecutar scripts, tocar herramientas externas y moverse por interfaces. En ese contexto, la frontera competitiva deja de ser únicamente quién genera el texto más convincente y empieza a ser quién construye el ciclo de mejora más veloz. Un agente que falla y no aprende es una demo. Un agente que falla, lee la cicatriz y ajusta su conducta, empieza a parecer un producto.

Claro que el asunto tiene letra chica, y no hace falta ponerse filosófico para verla. En asistentes personales, el entrenamiento continuo depende de datos sensibles, hábitos privados y contextos que no admiten filtraciones. En entornos de software, la retroalimentación puede ser ruidosa, parcial o fácil de contaminar. Un usuario puede corregir por gusto, no por precisión. Un test puede pasar y aun así dejar una mala solución escondida en el código. Una interfaz puede cambiar y volver engañosa la señal visual. El artículo no ignora estos problemas, pero todavía los trata más como desafíos de implementación que como límites demostrados por evidencia de campo.

También queda pendiente la vieja tensión entre especialización y deriva. Un asistente que se adapta con rapidez al tono de una persona puede volverse excelente para ese contexto y mediocre fuera de él. Un sistema que aprende de reconsultas y correcciones podría reforzar manías, sesgos locales o hábitos poco deseables si el filtro del juez falla. En otras palabras, convertir conversación en gradiente no elimina la necesidad de control de calidad. Solo la traslada a otro piso del edificio.

Con todo, sería un error leer OpenClaw-RL como una excentricidad académica. El paper toca una fibra muy concreta de la industria actual. Mientras la carrera por agentes más capaces multiplica entornos, herramientas y despliegues, el volumen de señales posteriores a cada acción crece de manera brutal. El trabajo dice que ahí hay una mina abierta. No promete una revolución instantánea. Propone algo más verosímil: que la próxima gran mejora no salga de un dataset secreto ni de un lote épico de etiquetas, sino de escuchar con atención lo que ocurre justo después del error.

Eso, en 2026, ya no suena como una nota al pie. Suena como el negocio entero.

Referencias

Wang, Yinjie; Chen, Xuyang; Jin, Xiaolong; Wang, Mengdi; Yang, Ling. OpenClaw-RL: Train Any Agent Simply by Talking, arXiv, 10 de marzo de 2026. https://arxiv.org/abs/2603.10165

Versión HTML del paper en arXiv, con descripción de la arquitectura, resultados y tablas experimentales. https://arxiv.org/html/2603.10165v1

Repositorio oficial de OpenClaw-RL en GitHub, con README técnico, instrucciones de despliegue y resumen de la propuesta. https://github.com/Gen-Verse/OpenClaw-RL

Repositorio oficial de OpenClaw, el asistente personal sobre el que se apoya la pista de personalización del paper. https://github.com/openclaw/openclaw

Sitio oficial de OpenClaw, con descripción de producto y canales soportados. https://openclaw.ai/

Repositorio oficial de slime, framework de post entrenamiento para escalado de RL usado como base de la arquitectura asíncrona. https://github.com/THUDM/slime

Wang, Yinjie; Xie, Tianbao; Shen, Ke; Wang, Mengdi; Yang, Ling. RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System, arXiv, 2026. https://arxiv.org/abs/2602.02488

SETA, entorno y datos para agentes de terminal, repositorio CAMEL-AI. https://github.com/camel-ai/seta

Xie, Tianbao et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, NeurIPS 2024. https://papers.nips.cc/paper_files/paper/2024/hash/8fc636344aab64ecff840445683d7e88-Abstract-Datasets_and_Benchmarks_Track.html

Jimenez, Carlos E. et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, arXiv, 2023. https://arxiv.org/abs/2310.06770

Claude Code, documentación oficial de Anthropic, como ejemplo de la expansión de agentes que operan repositorios y terminales. https://docs.anthropic.com/es/docs/claude-code/overview

Codex CLI, documentación oficial de OpenAI, como referencia del avance de agentes de desarrollo que trabajan en la consola local. https://developers.openai.com/codex/cli/

OpenClaw aprende durante el uso