METR descubre que sistemas autónomos alcanzarán semanas de trabajo antes de 2030

La métrica que predice cuándo los algoritmos reemplazarán tareas de días enteros

METR introduce el horizonte temporal como medida de resistencia autónoma: la duración de tareas humanas que los sistemas pueden completar con 50% de confiabilidad. GPT-5.2 establece un récord con 6.6 horas, mientras que la tendencia exponencial con duplicación cada siete meses proyecta agentes capaces de ejecutar trabajos de semanas completas antes de 2030. El progreso permaneció estancado desde 2022 hasta 2024, luego se disparó verticalmente en 2025

Por el equipo editorial | 6 de febrero, 2026

La evaluación de los sistemas autónomos se ha centrado, por muchos años, en la precisión puntual: el porcentaje de respuestas correctas en conjuntos de preguntas específicas, la puntuación en exámenes estandarizados, la tasa de éxito en tareas micro delimitadas. Estos benchmarks capturan la competencia en fragmentos aislados pero fallan sistemáticamente en medir la resistencia, la capacidad de mantener un rendimiento sostenido a través de procesos multi etapa donde un error temprano contamina todas las decisiones subsiguientes. Un modelo que resuelve correctamente el 95% de los problemas individuales de programación puede colapsar completamente cuando enfrenta un proyecto que requiere orquestar docenas de esos problemas en una secuencia coherente durante horas de ejecución continua.

METR, la organización especializada en evaluación de riesgos de sistemas autónomos, propone una métrica radicalmente diferente: el horizonte temporal, definido como la duración de tareas humanas que un agente puede completar autónomamente con una probabilidad especificada, típicamente 50% o 80%. En lugar de preguntar "¿cuántas tareas resuelve correctamente?", la métrica interroga "¿cuán largas pueden ser esas tareas antes de que la probabilidad de éxito decaiga a niveles inutilizables?". La distinción no es semántica. Una tarea que consume cinco minutos de tiempo humano típicamente involucra pasos limitados con pocas bifurcaciones decisionales. Una tarea de cinco horas atraviesa centenares de micro decisiones, cada una potencialmente fatal si se ejecuta incorrectamente, demandando no solo competencia técnica sino también planificación estratégica, recuperación de errores y mantenimiento de objetivos a través de un contexto cambiante.

Definición operativa: horizonte temporal al 50%

Concepto: La duración en horas-humano de tareas que un modelo autónomo puede completar exitosamente en el 50% de los intentos sin intervención externa.

Unidad de medida: Horas-humano, definida como el tiempo que un profesional experto con herramientas apropiadas requiere para completar la tarea desde cero, usada como proxy para la complejidad y la cantidad de pasos involucrados.

Metodología: METR evalúa los modelos en un conjunto diverso de tareas reales de software y razonamiento, registra la tasa de éxito para cada tarea, y ajusta una curva logística que predice la probabilidad de éxito en función de la duración humana. El horizonte temporal se extrae identificando la duración donde la curva cruza el umbral especificado.

Interpretación: GPT-5.2 con un horizonte temporal de 6.6 horas al 50% significa que puede completar autónomamente tareas que consumen aproximadamente una jornada laboral humana en la mitad de las ocasiones, sin asistencia ni corrección manual intermedia.

El cuatro de febrero de 2026, METR publicó una evaluación actualizada mostrando que GPT-5.2 alcanza un horizonte temporal de 6.6 horas con un intervalo de confianza del 95% entre 3.3 y 17.5 horas, estableciendo un nuevo récord absoluto en esta métrica desde que comenzaron las mediciones sistemáticas. El logro trasciende la mejora incremental: representa un salto cualitativo hacia agentes que pueden asumir proyectos completos de nivel junior a intermedio sin supervisión constante. Una tarea de 6.6 horas-humano podría involucrar, por ejemplo, implementar un feature completo en una aplicación web existente incluyendo el diseño de API, la escritura de la lógica backend, la creación de una interfaz frontend, la redacción de tests unitarios, y la documentación técnica, una secuencia que históricamente requería intervención humana en múltiples puntos de decisión arquitectónica o depuración de integraciones fallidas.

La curva plana que se quebró en 2025

Cuando METR trazó el horizonte temporal histórico en escala logarítmica, emergió un patrón sorprendente. Desde 2022 hasta finales de 2024, la curva permanece virtualmente horizontal alrededor de fracciones de hora, indicando que los modelos de esa era apenas podían completar confiablemente tareas que consumían minutos de tiempo humano. GPT-3.5, Claude 2, y las generaciones tempranas de modelos de código luchaban incluso con ejercicios introductorios de programación que cualquier estudiante de primer año completaría en una sesión de laboratorio de dos horas. La tasa de éxito colapsaba precipitadamente más allá del umbral de 30 a 40 minutos, señalando limitaciones fundamentales en la memoria de trabajo, el seguimiento de estado, y la recuperación de errores.

Evolución del horizonte temporal al 50% desde 2022 hasta 2026, mostrando el estancamiento prolongado seguido de aceleración exponencial en 2025. Escala logarítmica en el eje vertical, la región sombreada representa el intervalo de confianza del 95%

En 2025, la curva se quiebra abruptamente y comienza un ascenso exponencial pronunciado. GPT-4o alcanza aproximadamente una hora, Claude Opus 4 se posiciona cerca de 1.5 horas, y cada generación subsiguiente duplica o triplica la capacidad de la predecesora en una ventana de meses. Cuando GPT-5.2 llega a 6.6 horas en febrero de 2026, la pendiente es tan pronunciada que una extrapolación lineal simple sugiere el cruce del umbral de 24 horas antes de 2027 y semanas enteras antes de 2029, proyecciones que habrían parecido ciencia ficción apenas dos años antes. La aceleración no refleja una mejora en los benchmarks tradicionales de magnitud comparable: muchos modelos recientes alcanzan la saturación en tareas de respuesta única mientras exhiben saltos dramáticos en la resistencia multi etapa.

Insight crítico: La métrica de horizonte temporal captura una dimensión ortogonal a la competencia puntual. Un modelo puede dominar los problemas individuales pero carecer de la arquitectura cognitiva para encadenarlos coherentemente durante la ejecución extendida. Los avances de 2025 sugieren que los desarrolladores finalmente resolvieron los cuellos de botella en la memoria de contexto, la planificación jerárquica y la autocorrección que impedían la resistencia sostenida, habilitando el salto de tareas-juguete a proyectos-reales.

El análisis de METR revela que el tiempo humano predice fuertemente la probabilidad de éxito del modelo en una tarea dada: los sistemas actuales alcanzan casi el 100% de éxito en tareas que los humanos completan en menos de cuatro minutos, pero descienden por debajo del 10% cuando la duración excede aproximadamente cuatro horas. Esta relación permite caracterizar un modelo completo mediante una curva logística que mapea la duración a la probabilidad de éxito, comprimiendo el rendimiento en docenas de tareas diversas en una función continua interpretable. Al fijar un umbral de probabilidad, se extrae el horizonte temporal correspondiente, un número único que comunica inmediatamente la capacidad práctica del sistema para el trabajo autónomo.

Curvas de probabilidad de éxito versus duración de tarea humana para modelos seleccionados. Las líneas verticales indican el horizonte temporal al 50% para cada sistema, mostrando la progresión dramática de capacidades

Duplicación cada siete meses

Cuando se ajusta una tendencia exponencial a los datos históricos completos desde 2022, emerge un tiempo de duplicación de aproximadamente siete meses. Esto significa que cada siete meses, en promedio, la duración de las tareas que los modelos pueden completar confiablemente se duplica. La regularidad de esta tendencia a través de múltiples generaciones de arquitecturas, proveedores, y paradigmas de entrenamiento sugiere una dinámica subyacente robusta: las mejoras en hardware, los algoritmos de entrenamiento, la calidad de datos, y las técnicas de fine tuning convergen para producir una ganancia compuesta predecible en la resistencia autónoma, incluso cuando los benchmarks tradicionales exhiben saturación o ruido aleatorio.

El horizonte temporal al 50% en escala logarítmica con ajuste de tendencia exponencial, revelando un tiempo de duplicación de aproximadamente 7 meses. La proyección futura está indicada con línea punteada y banda de incertidumbre

La extrapolación matemática de esta tendencia produce proyecciones asombrosas pero rigurosamente fundamentadas. Si la tasa de duplicación de siete meses se mantiene, los sistemas alcanzarían un horizonte temporal de 24 horas, una jornada laboral completa, alrededor del primer trimestre de 2027. Las tareas de semana entera, 40 horas, llegarían a mediados de 2028. Los proyectos que actualmente consumen meses humanos de esfuerzo sostenido quedarían al alcance de la ejecución autónoma antes de finalizar la década. Estas extrapolaciones asumen la continuación de la tendencia actual sin rupturas tecnológicas ni cuellos de botella fundamentales, un supuesto que podría fallar, pero hasta ahora la curva no muestra signos de desaceleración.

⚠️ Advertencia metodológica

METR enfatiza que las extrapolaciones de largo plazo conllevan una incertidumbre sustancial. Las tendencias históricas pueden quebrar por limitaciones arquitectónicas imprevistas, el agotamiento de datos de entrenamiento de alta calidad, o la saturación de retornos de inversión computacional. Alternativamente, si se considera exclusivamente el progreso desde 2024, cuando la aceleración se manifestó más claramente, el tiempo de duplicación se acorta y las proyecciones se adelantan aproximadamente 2.5 años. Ambos escenarios tienen precedentes históricos en las curvas de tecnología exponencial que eventualmente encuentran límites físicos o económicos.

Los investigadores también evaluaron la sensibilidad del horizonte temporal al umbral de probabilidad elegido. Al 80% de confiabilidad, un umbral más estricto relevante para las aplicaciones donde los errores tienen un costo alto, los horizontes temporales se comprimen significativamente pero la tendencia exponencial persiste. GPT-5.2 que alcanza 6.6 horas al 50% probablemente opera cerca de 2 a 3 horas al 80%, una diferencia que refleja la naturaleza estocástica de la ejecución agéntica donde el mismo modelo en el mismo problema puede tomar caminos divergentes con resultados dispares. Para el despliegue en producción, las organizaciones deben elegir un umbral alineado con la tolerancia al riesgo específica de la aplicación: los sistemas críticos de seguridad demandan el 95% o superior, mientras que las herramientas de productividad interna pueden operar confortablemente con el 60 a 70%.

Comparación del horizonte temporal entre umbrales de 50% y 80% de probabilidad de éxito para modelos recientes, demostrando la compresión esperada pero el mantenimiento del ordenamiento relativo entre sistemas

Implicaciones para la arquitectura de sistemas

El horizonte temporal como métrica operativa transforma las decisiones de diseño de sistemas autónomos. Tradicionalmente, los desarrolladores fragmentaban los proyectos complejos en subtareas de minutos u horas, ejecutaban cada fragmento con supervisión humana intermedia, y ensamblaban los resultados manualmente. Esta aproximación funciona cuando la resistencia del agente es medida en decenas de minutos, pero introduce un overhead masivo de coordinación y pierde la coherencia global. Con horizontes temporales que ahora alcanzan múltiples horas, la arquitectura óptima migra hacia la delegación de proyectos completos con intervención humana reservada para la aprobación final, la revisión de hitos mayores, o la resolución de bloqueos genuinos que el sistema detecta y escala proactivamente.

Consideración técnica: El horizonte temporal mide la resistencia bajo condiciones ideales de evaluación controlada. Los entornos de producción introducen variables adicionales: APIs externas con latencia variable o fallos intermitentes, documentación ambigua o contradictoria, especificaciones de proyecto que evolucionan durante la ejecución, restricciones de recursos computacionales o presupuestarios. El horizonte efectivo en el despliegue real típicamente cae un 30 a 50% respecto al benchmark, requiriendo un margen de seguridad en la planificación de asignaciones.

La métrica también informa las estrategias de monitoreo y recuperación. Si el horizonte temporal al 80% de un modelo es cuatro horas, asignarle una tarea de seis horas garantiza la falla en la mayoría de los intentos, desperdiciando cómputo y generando frustración. Sin embargo, asignar dos tareas de tres horas secuencialmente con un checkpoint intermedio maximiza la probabilidad de progreso útil: el sistema completa la primera tarea con alta confiabilidad, un humano valida el resultado brevemente, y procede a la segunda con un contexto fresco. Este patrón de trabajo por lotes con validación en las fronteras de resistencia emerge como la mejor práctica en las organizaciones que despliegan agentes a escala, balanceando autonomía con confiabilidad.

"La medición del rendimiento en términos de la longitud de tareas que los sistemas pueden completar permite rastrear las mejoras a través de un amplio rango de niveles de capacidad y dominios diversos. La relación directa con los resultados del mundo real permite una interpretación significativa del rendimiento absoluto, no solo comparaciones relativas entre modelos." Equipo de investigación de METR en publicación técnica

Para los desarrolladores de modelos, el horizonte temporal ofrece un objetivo de optimización complementario a las métricas tradicionales. Entrenar exclusivamente para la precisión en tareas puntuales puede saturar rápidamente sin mejorar la resistencia, mientras que incluir episodios multi etapa largos durante el fine tuning fuerza al modelo a desarrollar habilidades de planificación, seguimiento de estado, y recuperación de errores que generalizan a nuevos dominios. Las evaluaciones internas de los laboratorios líderes ahora incorporan rutinariamente el seguimiento del horizonte temporal junto con los benchmarks establecidos, reconociendo que la capacidad de ejecutar trabajo sostenido constituye una frontera crítica para la adopción empresarial masiva y el eventual despliegue en escenarios de alto impacto.

Casos de uso desbloqueados por horizontes extendidos

Un horizonte temporal de 6.6 horas habilita categorías completas de aplicaciones previamente inviables. La consultoría técnica automatizada donde el cliente describe un problema de infraestructura, el agente investiga la documentación relevante, analiza las configuraciones actuales, propone soluciones con justificación detallada, y genera scripts de migración, un proceso que consume una jornada laboral típica. La auditoría de código integral en repositorios medianos, inspeccionando vulnerabilidades de seguridad, patrones anti optimales, violaciones de convenciones, y generando un reporte exhaustivo con líneas específicas señaladas y refactorizaciones sugeridas. La investigación de literatura científica sobre una pregunta especializada, sintetizando centenares de papers, identificando consensos y controversias, y produciendo una revisión bibliográfica estructurada con citaciones correctas.

En el contexto educativo, asistentes que acompañan a los estudiantes a través de proyectos semestrales completos: desde la formulación inicial de la pregunta de investigación, el diseño de metodología, la implementación de experimentos, el análisis de datos, hasta la redacción del documento final, proporcionando guía socrática en cada etapa sin resolver los problemas directamente. En el ámbito creativo, sistemas que reciben un brief del cliente, desarrollan un concepto narrativo, escriben un guion completo con arcos de personajes coherentes, identifican inconsistencias lógicas, y refinan los diálogos iterativamente, comprimiendo el proceso de semanas en una ejecución de horas bajo la supervisión ocasional de un escritor humano que valida la dirección creativa en los puntos de inflexión.

El umbral de 24 horas proyectado para 2027 desbloquea un escalón adicional: proyectos que actualmente requieren múltiples días de trabajo humano concentrado. El desarrollo de una aplicación móvil completa desde la especificación de requisitos hasta la implementación funcional con UI pulida y backend operativo. El due diligence financiero exhaustivo en una adquisición corporativa potencial, analizando años de reportes financieros, transcripciones de llamadas, documentación legal, y produciendo un memorándum de inversión estructurado con recomendaciones fundamentadas. El diseño e implementación de una campaña de marketing digital multi canal con segmentación de audiencias, creación de contenido, configuración de automatizaciones, y dashboards de monitoreo, una tarea que típicamente consume una semana completa de un equipo especializado.

La frontera entre lo automatizable y lo no automatizable se mueve inexorablemente hacia tareas de mayor complejidad, duración, y impacto económico. Los profesionales cuyo valor reside en la ejecución competente de procesos establecidos enfrentan una presión creciente, mientras que aquellos especializados en el juicio estratégico, la navegación de ambigüedad, la negociación con stakeholders humanos, y las decisiones que requieren un contexto social o ético profundo mantienen una ventaja duradera. El horizonte temporal no mide estas dimensiones cualitativamente humanas, solo la resistencia técnica en tareas con criterios de éxito objetivos y documentados, un recordatorio de que la automatización avanza heterogéneamente a través del espacio de trabajo humano.

Referencias

METR. (2025). Measuring AI Ability to Complete Long Tasks. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

Kwa, T., et al. (2025). Measuring AI Ability to Complete Long Tasks. arXiv:2503.14499. https://arxiv.org/abs/2503.14499

METR. (2026). GPT-5.2 Evaluation Update. Twitter/X post. https://x.com/METR_Evals/status/2019169900317798857

METR. (2025). Measuring the Impact of Early-2025 AI on Experienced Open-Source Developers. https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/

Alignment Forum. (2025). METR: Measuring AI Ability to Complete Long Tasks. https://www.alignmentforum.org/posts/deesrjitvXM4xYGZd/metr-measuring-ai-ability-to-complete-long-tasks

LessWrong. (2025). METR: Measuring AI Ability to Complete Long Tasks. https://www.lesswrong.com/posts/deesrjitvXM4xYGZd/metr-measuring-ai-ability-to-complete-long-tasks

Data Global Hub. (2025). New Lens for Measuring AI Ability to Complete Long Tasks. https://dataglobalhub.org/resource/articles/metr-new-lens-for-measuring-ai-ability-to

Glitchwire. (2025). The AI Time Horizon Test: Are We Finally Measuring Real Capability? https://www.glitchwire.com/news/the-ai-time-horizon-test

METR descubre que sistemas autónomos alcanzarán semanas de trabajo antes de 2030