Durante años, la evaluación de los sistemas computacionales inteligentes se construyó sobre pruebas académicas: cuántas respuestas correctas arroja un modelo en un examen de matemáticas, con qué precisión interpreta un texto, con qué velocidad clasifica imágenes. Ese mundo empieza a parecerse, cada vez más, a una arqueología de laboratorio. Quienes desarrollan estos sistemas descubrieron hace tiempo que aprobar exámenes es fácil; sostener trabajo real bajo presión económica es otra conversación.
El Data Intelligence Lab de la Universidad de Hong Kong, conocido por sus siglas HKUDS, acaba de abrir esa conversación con una propuesta tan simple como radical: en lugar de medir lo que un agente sabe, medir lo que gana. El sistema se llama ClawWork y fue presentado en febrero de 2026 por el investigador Chao Huang y su equipo. Su lógica es casi darwiniana: cada agente recibe diez dólares de capital inicial, tareas profesionales reales y una factura que se descuenta en tiempo real por cada operación que ejecuta. Si entrega trabajo de calidad, cobra. Si el saldo cae a cero, quiebra y se detiene. No hay rescates ni excepciones.
La arquitectura de la supervivencia económica
ClawWork no surgió de la nada. El laboratorio construyó el sistema sobre dos piezas ya existentes: Nanobot, su propio marco de agentes ligeros, y el conjunto de datos GDPVal, publicado por OpenAI y presentado formalmente como póster en la conferencia ICLR 2026. GDPVal es un catálogo de 220 tareas representativas de 44 ocupaciones que concentran los nueve sectores con mayor peso en el producto interno bruto de Estados Unidos, desde trabajadores sociales hasta auditores financieros, pasando por ingenieros, gerentes hospitalarios y analistas de sistemas. Cada tarea fue diseñada por profesionales con una media de catorce años de experiencia real en su campo, y el conjunto fue elaborado por un equipo de diecinueve investigadores de OpenAI encabezado por Tejal Patwardhan.
Lo que HKUDS hizo fue tomar ese arsenal de situaciones laborales reales y convertirlo en un entorno económico vivo. El agente no recibe orientación humana durante la sesión: decide solo si dedicar sus recursos a trabajar de inmediato para sostener el saldo, o invertir tiempo en aprender y acumular memoria persistente con la esperanza de rendir mejor en tareas posteriores. Cada llamada al modelo de lenguaje, cada búsqueda en la red, cada token generado, descuenta una fracción del capital disponible. Cuando el agente completa una tarea, un segundo modelo actúa como evaluador independiente y califica el resultado entre cero y uno, usando criterios específicos para cada uno de los 44 sectores cubiertos.
El sistema mide el desempeño mediante un conjunto de indicadores que van más allá de la calidad del output: días de supervivencia, saldo final, margen de ganancia sobre los costos de token, eficiencia por dólar gastado y la proporción entre decisiones de trabajo y de aprendizaje. Esa mezcla de métricas replica, con llamativa fidelidad, la hoja de evaluación que cualquier empresa aplicaría a un empleado nuevo: ¿produce más de lo que consume? ¿Mejora con el tiempo? ¿Sabe cuándo arriesgarse y cuándo conservar recursos?
Lo que el dinero mide que los exámenes no pueden
Los resultados más llamativos que el equipo reportó en su repositorio público hablan de sesiones de siete horas donde el agente acumuló ingresos superiores a 10.000 dólares, y de tasas de rendimiento equivalentes a más de 1.500 dólares por hora para los modelos con mejor desempeño. ClawWork soporta varios sistemas en competencia simultánea: GPT-4o y sus variantes más recientes, Claude de Anthropic y los modelos chinos GLM, Kimi y Qwen, todos midiendo su capacidad de sobrevivir y prosperar bajo las mismas condiciones de presión económica.
La distinción conceptual que introduce el experimento no es menor. Los sistemas de evaluación convencionales miden capacidad: ¿cuánto sabe el modelo? ¿Qué tan precisas son sus respuestas a preguntas con solución verificable? Esa métrica dice poco sobre lo que ocurre cuando el modelo debe producir un entregable complejo, gestionar la incertidumbre propia de una tarea abierta, controlar sus costos operativos y mantener rentabilidad a lo largo del tiempo. Es la diferencia entre examinar a un médico con un cuestionario de anatomía y pedirle que gestione una sala de urgencias durante ocho horas seguidas.
El propio GDPVal, según el estudio publicado en OpenReview para ICLR 2026, registra que el rendimiento de los modelos de frontera sobre sus tareas mejora de modo aproximadamente lineal con el tiempo, y que los sistemas más avanzados actualmente disponibles se acercan a la calidad de expertos humanos en los entregables evaluados. Completar esas tareas unas cien veces más rápido y a una fracción del costo que un profesional convencional es, según los autores del benchmark, técnicamente posible con los modelos presentes. Pero igualar a un experto en condiciones controladas es una cosa; hacerlo de modo sostenible, pagando la propia cuenta operativa y sin asistencia externa, es lo que ClawWork viene a medir.
La tensión más interesante que el sistema revela es la que existe entre eficiencia inmediata y aprendizaje acumulado. En cada ciclo, el agente toma una decisión estratégica: trabajar ahora y cobrar, o dedicar ese intervalo a construir memoria persistente para rendir mejor en encargos futuros. Es, en esencia, el mismo dilema que enfrenta cualquier profesional al inicio de su carrera, y los resultados sugieren que los modelos más rentables no son necesariamente los más veloces, sino los que logran calibrar esa tensión con mayor sofisticación.
Qué mide ClawWork que otros benchmarks ignoran
Viabilidad económica sostenida: no solo si el modelo puede completar una tarea, sino si puede hacerlo con margen de ganancia sobre sus propios costos operativos a lo largo de múltiples sesiones.
Toma de decisiones estratégicas: la capacidad del agente para elegir entre trabajo inmediato y aprendizaje diferido, replicando dilemas reales de cualquier trabajador del conocimiento.
Calidad de entregables reales: Word, Excel, PDFs, código ejecutable, análisis de datos, reportes técnicos; no respuestas de opción múltiple ni resúmenes de texto.
Eficiencia de token: cuánto ingreso genera el agente por cada dólar que gasta en operaciones de cómputo, una métrica directamente relevante para cualquier empresa que evalúe adoptar estas herramientas.
Las cifras asombrosas y la pregunta que persiste
Conviene detenerse en los números antes de extraer conclusiones apresuradas. Los 10.000 dólares en siete horas corresponden al mejor desempeño documentado, bajo condiciones óptimas, con los modelos más capaces disponibles y en tareas donde el agente logró calificaciones cercanas al máximo. No es el rendimiento promedio ni siquiera el habitual: es el techo alcanzado en circunstancias favorables. Como bien señaló el análisis publicado por DarkWebInformer al revisar el lanzamiento, ese titular deslumbrante refleja condiciones ideales cuya replicabilidad en contextos reales sigue siendo una pregunta abierta.
En el propio repositorio de GitHub, un hilo abierto días después del lanzamiento cuestionó la solidez de ciertas afirmaciones del proyecto, señalando discrepancias entre las métricas promocionadas y los resultados reproducibles de forma independiente. El equipo del HKUDS no respondió públicamente con detalle a esas críticas. A esto se suma una limitación estructural que el propio proyecto reconoce: el evaluador que califica la calidad del trabajo es, él mismo, otro modelo de lenguaje, en este caso GPT-5.2. Esa circularidad introduce sesgos conocidos de los enfoques de evaluación automatizada y no equivale a validación humana independiente.
Limitaciones que el experimento no resuelve
Evaluación circular: la calidad del trabajo la determina un modelo de lenguaje (GPT-5.2), no expertos humanos del sector correspondiente. Los sesgos conocidos de estos jueces automatizados afectan la validez de los resultados.
Economía simulada: los pagos y costos son representaciones virtuales basadas en tarifas de referencia. La presión financiera imita la lógica del mercado laboral real, pero no la reproduce con fidelidad completa.
Rendimiento bajo condiciones ideales: los resultados más llamativos corresponden al mejor modelo en el mejor escenario posible; las cifras promedio son significativamente más modestas y aún no han sido replicadas de forma independiente.
Con todo, la contribución genuina de ClawWork no reside en los números sino en el cambio de perspectiva que propone. Evaluar un sistema de software según su capacidad de generar valor económico sostenible, cubriendo sus propios costos, sin supervisión continua y sobre tareas que representan con rigor el mercado laboral real, es un marco radicalmente más exigente que cualquier examen académico previo. En cuestión de horas tras su publicación el 15 de febrero de 2026, el repositorio acumuló más de 1.400 estrellas en GitHub, lo que sugiere que el campo lleva tiempo esperando exactamente este tipo de pregunta.
Si los sistemas de lenguaje van a transformar el empleo del conocimiento a la escala que muchos anticipan, la métrica relevante no será cuántas respuestas aciertan en un cuestionario. Será si generan más valor del que consumen. El laboratorio de Hong Kong no resolvió esa ecuación; construyó, con diez dólares y un conjunto de tareas reales, la forma correcta de plantearla.
Referencias
Huang, Chao et al. ClawWork: Transform AI Assistants into Economic AI Coworkers. Data Intelligence Lab, HKUDS, Universidad de Hong Kong, febrero de 2026. Repositorio público: github.com/HKUDS/ClawWork
Patwardhan, Tejal et al. "GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks." ICLR 2026 Poster. OpenReview, enero-febrero de 2026. openreview.net/forum?id=hcuEdq6eKD
OpenAI. "Introducing GDPVal: AI Models Now Matching Human Expert Performance on Real Economic Tasks." Blog oficial de OpenAI, septiembre de 2025. openai.com/index/gdpval/
DarkWebInformer. "ClawWork: An Economic Survival Benchmark That Makes AI Agents Earn Their Keep." Análisis técnico independiente, 16 de febrero de 2026. darkwebinformer.com
GitHub Issues. "Misleading Claims and Vibecoded Codebase · Issue #3." Discusión pública en el repositorio HKUDS/ClawWork, 18 de febrero de 2026. github.com/HKUDS/ClawWork/issues/3
HKUDS. Nanobot: marco de agentes ligeros base del sistema ClawWork. github.com/HKUDS/nanobot
GDPVal Explorer. Herramienta de exploración del dataset con 220 tareas en 44 ocupaciones y 9 sectores del PIB. gdpval.dev



