Anthropic midió cuánto tiempo trabajan solos sus sistemas y los resultados sorprenden

Los agentes que ya no esperan: el estudio que midió la autonomía real

Un análisis inédito de Anthropic sobre millones de interacciones reales revela una brecha que la industria no había cuantificado: los modelos son capaces de operar de manera autónoma durante mucho más tiempo del que los usuarios les permiten. La pregunta ya no es si los agentes pueden actuar solos; es hasta dónde estamos dispuestos a dejarlos.

Por el equipo editorial | 18 de febrero, 2026

Hay un momento preciso, casi imperceptible, en el que un asistente digital deja de ser una herramienta reactiva y se convierte en algo más difícil de nombrar. No hay anuncio ni señal de alerta; solo un cursor parpadeando en pantalla mientras el sistema ejecuta decisiones que nadie dictó de forma explícita en ese instante. Durante años, ese umbral fue terreno de conjetura. El 18 de febrero de 2026, Anthropic publicó evidencia concreta de que ese cruce ocurre con regularidad, en millones de sesiones reales, y de que la distancia entre lo que los modelos pueden sostener solos y lo que los usuarios les permiten hacer es, en este momento, considerable.

El estudio titulado "Measuring AI agent autonomy in practice" es el primer análisis a gran escala basado en datos de producción genuinos sobre el comportamiento autónomo de los agentes. El equipo, integrado por más de veinte investigadores de Anthropic, entre ellos Miles McCain, Saffron Huang, Alex Tamkin y Jack Clark, examinó millones de interacciones procedentes de dos fuentes complementarias: las sesiones de Claude Code, el asistente de programación de la empresa, y el tráfico de la API pública, que agrupa miles de despliegues de clientes externos en condiciones de uso real. La metodología fue deliberadamente cautelosa: en lugar de intentar reconstruir arquitecturas que la empresa no puede observar directamente, el equipo analizó las llamadas individuales a herramientas como unidad básica de observación, preservando la privacidad de los usuarios mediante infraestructura especializada. El resultado es un mapa sin precedentes del funcionamiento de la autonomía algorítmica en producción, a años luz de los entornos controlados de laboratorio.

La brecha entre lo que puede y lo que hace

La cifra más reveladora del informe no es la más llamativa; es la más silenciosa. La mediana de duración de un turno en Claude Code, el tiempo que el sistema trabaja de forma continua antes de detenerse, oscila alrededor de 45 segundos y ha permanecido estable durante los últimos meses. Esta constancia no indica estancamiento: refleja la llegada permanente de usuarios nuevos que, como muestra el propio estudio, tienden a supervisar con mayor frecuencia y a confiar tareas más acotadas.

La historia se vuelve más compleja en los extremos. Entre octubre de 2025 y enero de 2026, el percentil 99,9 de duración de turno prácticamente se duplicó: pasó de menos de 25 minutos a más de 45. No fue un salto puntual ligado al lanzamiento de un modelo nuevo; la curva es suave y continua, lo que señala que no son únicamente las capacidades del sistema las que avanzan, sino la confianza de los usuarios más exigentes y la ambición de las tareas que le confían. Los investigadores denominan a este fenómeno "deployment overhang": los modelos son capaces de operar de manera autónoma durante más tiempo del que los usuarios, en promedio, les permiten. Un excedente de capacidad que permanece latente, sin ser utilizado, no por falta de potencia sino por cautela humana.

Los datos internos de Anthropic refuerzan ese argumento con una precisión notable. Entre agosto y diciembre de 2025, la tasa de éxito de Claude Code en las tareas más exigentes de uso interno se duplicó, mientras que el número medio de intervenciones humanas por sesión cayó de 5,4 a 3,3. El sistema completaba más trabajo y requería menos correcciones. Este hallazgo contrasta de manera llamativa con las evaluaciones externas de referencia: la organización METR, dedicada a medir la capacidad de los agentes para completar tareas de larga duración, estableció que Claude Opus 4.5 alcanza un 50 por ciento de éxito en trabajos que a un profesional humano le llevarían casi cinco horas de esfuerzo continuo. El percentil 99,9 de duración de turno en producción ronda los 42 minutos; la mediana es mucho menor. La diferencia no delata un fracaso del modelo: lo que un sistema puede sostener en condiciones ideales sin interacción humana y lo que los usuarios le permiten hacer en entornos reales son dos métricas que raramente convergen, y esa brecha tiene implicaciones que el sector apenas comienza a comprender.

        El "deployment overhang" en cifras: El percentil 99,9 de duración de turno en Claude Code casi se duplicó entre octubre de 2025 y enero de 2026, pasando de menos de 25 minutos a más de 45. En ese mismo período, la mediana global se mantuvo en torno a los 45 segundos, lo que refleja que la mayoría de los usuarios mantienen supervisión activa mientras un segmento de usuarios avanzados delega tareas de creciente ambición y duración.
    

El arte de supervisar sin controlar cada paso

Uno de los hallazgos más contraintuitivos del informe tiene que ver con la manera en que los usuarios modifican su conducta a medida que acumulan experiencia. Los usuarios nuevos, aquellos con menos de 50 sesiones en Claude Code, activan la aprobación automática total en aproximadamente el 20 por ciento de sus sesiones; los más veteranos, con más de 750 sesiones acumuladas, lo hacen en más del 40 por ciento. La tendencia parece inequívoca: con el tiempo, la gente delega más. Sin embargo, el mismo análisis revela que esos mismos usuarios experimentados interrumpen al agente con mayor frecuencia, pasando de una tasa de interrupción del 5 por ciento entre los principiantes al 9 por ciento entre quienes llevan más tiempo.

Esta aparente contradicción describe, con precisión, un cambio de estrategia de supervisión. Los usuarios nuevos aprueban cada acción antes de que se ejecute; los experimentados sueltan las riendas pero mantienen la mirada sobre el proceso, interviniendo cuando algo se desvía. No es abdicación, sino una forma más sofisticada de control: monitoreo activo en lugar de aprobación paso a paso. Los datos de la API pública confirman el patrón desde otro ángulo: el 87 por ciento de las llamadas en tareas de baja complejidad cuenta con alguna forma de intervención humana, frente al 67 por ciento en tareas de alta complejidad. Cuando los objetivos se vuelven más ambiciosos, la supervisión acción por acción resulta estructuralmente inviable, y son precisamente los usuarios con más experiencia quienes abordan ese tipo de encargos.

Hay un actor adicional en esta dinámica que el informe subraya con especial énfasis: el propio agente. Claude Code se detiene para solicitar aclaraciones con más frecuencia de lo que los humanos lo interrumpen, y esa diferencia se amplía conforme crece la dificultad de la tarea. En las asignaciones más exigentes, el sistema pide orientación más del doble de veces respecto a las tareas simples. Las razones más frecuentes por las que el agente frena su propio trabajo incluyen la necesidad de elegir entre enfoques posibles, obtener resultados de diagnóstico o solicitar credenciales de acceso ausentes. El usuario, por su parte, tiende a intervenir para aportar contexto técnico, corregir el rumbo de la tarea o simplemente porque ya obtuvo la asistencia necesaria para continuar de manera independiente. La autonomía, concluyen los autores, es una construcción conjunta entre el modelo, el usuario y el producto; no una propiedad fija que pueda medirse de forma aislada en un laboratorio.

Estrategia de supervisión en Claude Code según nivel de experiencia del usuario: los usuarios experimentados conceden más autonomía pero también intervienen con mayor frecuencia, lo que evidencia un monitoreo activo en lugar de aprobación acción por acción. Fuente: Anthropic, "Measuring AI agent autonomy in practice", febrero de 2026.

Cuando el código ya no es el único territorio

La fotografía sectorial que emerge del análisis es, al mismo tiempo, tranquilizadora en su estado actual y claramente provisional en su proyección. La ingeniería de software concentra cerca del 50 por ciento de la actividad agéntica registrada en la API pública de Anthropic, lo que refleja que los desarrolladores fueron los primeros en adoptar estas capacidades a escala y en construir sobre ellas con comodidad. Más allá del código, el panorama es diverso pero fragmentado: inteligencia de negocios, atención al cliente, ventas, finanzas y comercio electrónico aparecen como sectores en expansión, ninguno de los cuales supera unos pocos puntos porcentuales del tráfico total.

Lo que inquieta a los investigadores no es lo que ya sucede, sino lo que se perfila en el horizonte cercano. Sectores como la salud, la ciberseguridad y las finanzas han comenzado a experimentar con agentes autónomos y son, precisamente, los que presentan mayor riesgo potencial. El estudio clasifica las acciones registradas según dos ejes: riesgo e independencia operativa. Entre las combinaciones más extremas figuran la gestión autónoma de registros médicos, la ejecución de operaciones financieras sin supervisión directa y, en el flanco más sensible, ciertos ejercicios de seguridad ofensiva, como la exploración de vulnerabilidades no conocidas o la exfiltración simulada de credenciales. Los autores aclaran que muchos de estos casos corresponden probablemente a evaluaciones de red team y no a usos productivos reales, aunque reconocen que la metodología no permite distinguirlos con certeza.

En términos agregados, el panorama actual ofrece márgenes razonables: el 80 por ciento de las llamadas a herramientas provienen de agentes con al menos una salvaguarda activa, el 73 por ciento conserva alguna forma de participación humana en el proceso y apenas el 0,8 por ciento de las acciones son irreversibles, como el envío de mensajes reales a clientes o la ejecución de pagos. Sin embargo, los promedios tienden a ocultar lo que ocurre en los márgenes. Que la mayor parte de la actividad sea benigna y controlada no garantiza que los despliegues fronterizos sean inofensivos, y son precisamente esos casos límite los que crecen en frecuencia a medida que nuevas industrias adoptan la tecnología.

Las recomendaciones del informe se dirigen a tres tipos de actores. Los desarrolladores de modelos deben entrenar sistemas capaces de reconocer su propia incertidumbre y escalar consultas al humano de manera proactiva, una propiedad que los autores califican de central para la seguridad en entornos de producción. Los creadores de productos deben diseñar interfaces que ofrezcan visibilidad real sobre lo que el agente realiza, con mecanismos de intervención accesibles antes de que el error sea irreversible; la referencia concreta al rastreo mediante OpenTelemetry en Claude Code apunta en esa dirección. A los responsables de políticas públicas se les advierte de forma explícita que exigir la aprobación humana de cada acción individual no produce beneficios de seguridad proporcionales al costo operativo que genera. La supervisión efectiva no requiere estar presente en cada paso; requiere estar en condiciones de intervenir cuando realmente importa.

"La autonomía que los agentes ejercen en la práctica es co-construida por el modelo, el usuario y el producto. Claude limita su propia independencia al detenerse y preguntar cuando no está seguro. Los usuarios desarrollan confianza a medida que trabajan con el modelo y ajustan su estrategia de supervisión en consecuencia." Anthropic Research, "Measuring AI agent autonomy in practice", febrero de 2026

El fenómeno que documenta este estudio no es el nacimiento de la autonomía algorítmica; es el inicio de su medición sistemática en condiciones reales. Y medir, como suelen recordar los científicos, es el primer acto riguroso de comprensión. La infraestructura para hacerlo todavía es incipiente, los métodos siguen refinándose y la brecha entre lo que los modelos pueden hacer y lo que los humanos les permiten hacer continúa ensanchándose. La pregunta que queda abierta no es técnica: es sobre hasta dónde quiere llegar una sociedad que, sin haberlo decidido explícitamente, ya empezó a ceder parte de sus decisiones a sistemas que nunca dejan de trabajar.

Referencias

McCain, Miles; Millar, Thomas; Huang, Saffron; et al. "Measuring AI agent autonomy in practice." Anthropic Research, 18 de febrero de 2026. anthropic.com/research/measuring-agent-autonomy

METR. "Measuring AI Ability to Complete Long Tasks." METR Research, marzo de 2025. metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

METR. "Measuring Time Horizon using Claude Code and Codex." METR Notes, febrero de 2026. metr.org/notes/2026-02-13-measuring-time-horizon-using-claude-code-and-codex/

Kasirzadeh, Atoosa; Gabriel, Iason. "In conversation with artificial intelligence: aligning language models with human values." Philosophy & Technology, 2025.

Chan, Alan et al. "Harms from Increasingly Agentic Algorithmic Systems." arXiv:2302.10329, 2023.

Shavit, Yonadav et al. "Practices for Governing Agentic AI Systems." OpenAI Research, 2023.

Pan, Joon Sung et al. "Agents in the Wild: A Study of Production AI Agents." arXiv, 2025.

Anthropic. "Enabling Claude Code to work more autonomously." Anthropic News, septiembre de 2025. anthropic.com/news/enabling-claude-code-to-work-more-autonomously

Anthropic midió cuánto tiempo trabajan solos sus sistemas y los resultados sorprenden