Anthropic lanza Opus 4.6: GPT-5.2 queda 6 puntos atrás en búsqueda web agéntica

Anthropic lanza el modelo que procesa un millón de tokens y destrona a sus rivales

Claude Opus 4.6 establece un nuevo estándar en la capacidad de contexto extendido, alcanzando el 76% de precisión en la recuperación de información dispersa a través de un millón de tokens. El sistema supera a GPT-5.2 en la búsqueda web agéntica con 84% frente a 77.9%, y registra un salto de 31 puntos porcentuales en el razonamiento abstracto ARC AGI 2, marcando el avance más dramático entre versiones consecutivas documentado hasta la fecha

Por el equipo editorial | 6 de febrero, 2026

Anthropic acaba de desplegar Claude Opus 4.6, la primera iteración de su clase más avanzada que opera con una ventana de contexto de un millón de tokens, aproximadamente 750,000 palabras o el equivalente a procesar simultáneamente diez novelas extensas. La capacidad técnica no constituye un mero incremento cuantitativo: representa la habilitación de casos de uso previamente inviables, desde el análisis exhaustivo de bases de código empresariales completas hasta la síntesis de cientos de documentos financieros en una sola invocación, sin fragmentación ni pérdida de coherencia a través de interacciones sucesivas. Las evaluaciones independientes confirman que este umbral de contexto no es teórico sino operativo, con un rendimiento sostenido que mantiene la precisión incluso cuando el material de entrada alcanza los límites extremos.

Contexto técnico: Un token representa aproximadamente 0.75 palabras en inglés. Un millón de tokens equivale a cerca de 750,000 palabras, suficiente para contener la documentación técnica completa de frameworks complejos, los historiales extensos de conversaciones con agentes autónomos durante múltiples días de trabajo, o colecciones enteras de artículos de investigación con sus referencias. La expansión quintuplicada desde los 200,000 tokens previos elimina el cuello de botella arquitectónico que forzaba la fragmentación de las tareas largas en segmentos independientes con pérdida de coherencia contextual.

El lanzamiento coincide con la intensificación de la competencia en el segmento premium de los modelos lingüísticos, donde OpenAI presentó GPT-5.2 apenas semanas antes y Google mantiene una actualización constante de Gemini 3 Pro. Sin embargo, los benchmarks comparativos revelan un liderazgo claro de Opus 4.6 en las dimensiones críticas para las aplicaciones empresariales: la recuperación precisa de información en contextos masivos, la ejecución sostenida de tareas agénticas multi herramienta, y el razonamiento abstracto sobre problemas novedosos que no admiten memorización. La combinación de estas capacidades posiciona a Anthropic como el proveedor preferente para las organizaciones que despliegan sistemas autónomos en entornos de producción donde los errores tienen consecuencias económicas o reputacionales significativas.

Salto cuantitativo en el razonamiento abstracto

ARC AGI 2, el benchmark diseñado específicamente para resistir la memorización y evaluar la inteligencia fluida mediante problemas visuales abstractos jamás vistos durante el entrenamiento, expone con claridad la magnitud del avance. Opus 4.5, la versión previa lanzada en noviembre de 2025, alcanzaba el 37.6% de los problemas resueltos correctamente. Opus 4.6 salta al 68.8%, una ganancia absoluta de 31.2 puntos porcentuales. Esta mejora representa el incremento más pronunciado entre versiones consecutivas de cualquier familia de modelos documentado públicamente en este benchmark, superando incluso el salto del 17.6% al 52.9% registrado por GPT-5.2 respecto a GPT-5.1, que ya había sido calificado como excepcional por los analistas independientes.

Comparación del desempeño en ARC AGI 2 entre versiones consecutivas de Claude Opus y modelos competidores de frontera, mostrando el salto de +31.2 puntos absolutos de Opus 4.6

La relevancia de ARC AGI 2 trasciende las métricas académicas. Los problemas en este benchmark requieren identificar los patrones geométricos subyacentes, aplicar las transformaciones espaciales complejas, y generalizar las reglas a partir de ejemplos mínimos, habilidades fundamentales para el razonamiento causal en dominios no estructurados. Un modelo que exhibe una mejora dramática en esta dimensión probablemente ha desarrollado capacidades de abstracción más robustas, aplicables al análisis de código donde debe inferir la intención del programador original, o al diseño de experimentos donde debe extrapolar de los casos conocidos a las configuraciones inexploradas. La distinción entre ejecutar los patrones memorizados versus construir una comprensión genuina se vuelve operativamente importante cuando los sistemas deben tomar decisiones en escenarios que nunca han encontrado literalmente en los datos de entrenamiento.

🔍 Caso de uso: análisis de base de código empresarial

Una organización con un repositorio de 500,000 líneas distribuidas en 2,000 archivos necesita migrar la arquitectura monolítica a microservicios. Opus 4.6 puede ingerir el código completo, la documentación asociada, los registros de cambios históricos y las especificaciones de API en una sola sesión. El sistema identifica las dependencias transversales, detecta los patrones de acoplamiento problemáticos, propone las fronteras óptimas de servicios y genera un plan de migración incremental con los riesgos evaluados. Las versiones previas requerían fragmentar el análisis en docenas de consultas independientes, perdiendo la vista holística necesaria para la optimización global.

Terminal-Bench 2.0, la evaluación de codificación agéntica en un entorno de terminal donde el modelo debe navegar los filesystems, ejecutar comandos, interpretar outputs y corregir errores iterativamente, muestra un rendimiento del 65.4% para Opus 4.6. Aunque GPT-5.2 alcanza el 64.7%, virtualmente idéntico, el dato revela la convergencia en la competencia técnica pura cuando ambos sistemas operan en condiciones controladas. La diferenciación emerge en las tareas que combinan el razonamiento extendido con la recuperación selectiva de información a través de contextos masivos, el dominio donde la ventana de un millón de tokens confiere una ventaja arquitectónica directa a Opus 4.6.

Dominio absoluto en el contexto extendido

El benchmark MRCR v2 con la configuración de 8 agujas evalúa la capacidad de localizar y reproducir ocho hechos específicos ocultos deliberadamente en prompts extremadamente largos, simulando los escenarios donde la información crítica aparece dispersa en documentación voluminosa. A 256,000 tokens, Opus 4.6 alcanza entre el 92% y el 93% de precisión, mientras que GPT-5.2 con la configuración de alto esfuerzo obtiene el 63.9% y Gemini 3 Pro en modo pensamiento el 45.4%. La brecha de casi 30 puntos porcentuales respecto al competidor más cercano no es marginal: representa la diferencia entre un sistema confiable para producción versus un prototipo experimental que falla en una proporción inaceptable de casos.

El rendimiento en la recuperación de información (MRCR v2, 8-needle) a diferentes longitudes de contexto, demostrando la superioridad sostenida de Opus 4.6 incluso a la escala extrema de 1M tokens

A un millón de tokens, donde pocos modelos han sido evaluados públicamente debido a las limitaciones arquitectónicas, Opus 4.6 mantiene el 76% de precisión en la configuración máxima o el 78.3% con un ajuste optimizado para 64,000 tokens. Gemini 3 Pro, el único competidor con datos publicados a esta escala, colapsa al 24.5%, evidenciando que expandir la ventana nominal de contexto sin mecanismos sofisticados de atención y compresión selectiva produce una degradación catastrófica del rendimiento. OpenAI no reportó las evaluaciones de GPT-5.2 en el panel de un millón de tokens, sugiriendo que ese modelo aún no opera establemente a esa escala o que los resultados no fueron competitivos.

Especificaciones técnicas y pricing

Ventana de contexto: 1,000,000 tokens (beta), quintuplicación respecto a los 200,000 tokens de las versiones previas

Output máximo: 128,000 tokens por respuesta, permitiendo la generación de documentos extensos sin fragmentación

Adaptive thinking: El modelo decide autónomamente cuándo activar el razonamiento profundo según la complejidad detectada de la tarea

Niveles de esfuerzo: Cuatro configuraciones ajustables vía el parámetro /effort, balanceando latencia versus calidad de respuesta

Context compaction: Compresión automática del contexto antiguo cerca del umbral de límite, preservando la información relevante mientras libera capacidad

Pricing estándar: $5 por millón de tokens de entrada, $25 por millón de tokens de salida

Pricing extendido: Los prompts superiores a 200,000 tokens pagan $10/$37.50 (entrada/salida), reflejando el costo computacional incremental

BrowseComp, el benchmark que mide la habilidad de los agentes para localizar información difícil de encontrar mediante la navegación web estratégica, muestra un dominio claro de Opus 4.6 con el 84% de éxito, superando a GPT-5.2 que alcanza el 77.9% y dejando atrás a Opus 4.5 con el 67.8%. La tarea requiere formular las consultas de búsqueda efectivas, evaluar la relevancia de los resultados, navegar a través de múltiples páginas encadenadas, extraer los datos específicos y sintetizar los hallazgos coherentemente. El rendimiento superior implica que los sistemas agénticos basados en Opus 4.6 pueden automatizar la investigación exploratoria con una confiabilidad suficiente para reducir la dependencia de la supervisión humana constante, acelerando los ciclos de análisis en consultoría, el due diligence financiero, y la vigilancia competitiva.

Áreas donde el progreso es incremental

No todas las dimensiones registran mejora. SWE-bench Verified, la evaluación exhaustiva de ingeniería de software que mide la capacidad de resolver issues reales en repositorios de código abierto, muestra el 80.8% para Opus 4.6 versus el 80.9% para Opus 4.5, una diferencia estadísticamente indistinguible. La métrica "Scaled tool use", que evalúa la orquestación eficiente de múltiples herramientas externas en workflows complejos, decrece del 62.3% al 59.5%. Estos retrocesos o estancamientos señalan las compensaciones inherentes al desarrollo de modelos: optimizar para las capacidades de contexto extendido y razonamiento abstracto puede consumir el presupuesto de entrenamiento que de otro modo se invertiría en el refinamiento de competencias específicas ya maduras.

Comparación multi benchmark entre Opus 4.6, Opus 4.5 y GPT-5.2, revelando las fortalezas diferenciadas según el tipo de tarea evaluada

La interpretación requiere matices. SWE-bench Verified ya exhibía un rendimiento cercano a la saturación en la versión previa, dejando un margen limitado para la ganancia adicional sin cambios cualitativos en la arquitectura del agente completo, no solo el modelo subyacente. Scaled tool use podría reflejar la sensibilidad a los cambios en la calibración de confianza del modelo: los sistemas más cautelosos invocan las herramientas menos frecuentemente pero con mayor precisión, mientras que los sistemas agresivos maximizan la cobertura a costa de llamadas espurias. El balance óptimo depende del costo relativo de los falsos positivos versus los falsos negativos en la aplicación específica, por lo que la métrica agregada puede no capturar la mejora real en el subconjunto relevante de escenarios.

"Las pruebas tempranas muestran que Claude Opus 4.6 cumple con el trabajo de codificación complejo y multi paso que los desarrolladores enfrentan diariamente, especialmente los workflows agénticos que demandan planificación y llamadas de herramientas. Esto comienza a desbloquear las tareas de horizonte largo en la frontera." Declaración oficial de Anthropic en el comunicado de lanzamiento

Anthropic enfatiza en su documentación técnica que Opus 4.6 representa un salto particular en la planificación agéntica: descompone las tareas complejas en subtareas independientes, ejecuta las herramientas y los subagentes en paralelo, e identifica los blockers con precisión real. Esta capacidad de orquestación no se refleja completamente en los benchmarks de tarea única que miden la ejecución aislada. La verdadera potencia emerge en los escenarios compuestos donde el sistema debe mantener los objetivos de alto nivel a través de docenas de pasos intermedios, corrigiendo las desviaciones proactivamente y adaptando la estrategia conforme la nueva información revela que los caminos iniciales no son viables. Evaluar esta dimensión requiere las métricas holísticas de éxito en proyectos completos, no la precisión puntual en subtareas atómicas.

Implicaciones para el ecosistema empresarial

La disponibilidad inmediata en las plataformas principales, la Anthropic API directa, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Azure, con un pricing idéntico a la versión previa para el contexto estándar, elimina la fricción de adopción. Las organizaciones que ya operan pipelines basados en Claude pueden actualizar la referencia del modelo a claude-opus-4-6 sin modificación de infraestructura ni renegociación de contratos. La estrategia contrasta con los lanzamientos escalonados que limitan el acceso a los clientes de alto volumen durante semanas o meses, generando un incentivo para la experimentación temprana por parte de los desarrolladores independientes y las startups que históricamente han impulsado los casos de uso innovadores posteriormente adoptados por las empresas establecidas.

El incremento en el pricing para los prompts ultra largos, de $5 a $10 por millón de tokens de entrada cuando se superan los 200,000 tokens, refleja la realidad económica: procesar los contextos masivos consume memoria GPU y ciclos de cómputo sustancialmente mayores que las invocaciones estándar. Sin embargo, el costo permanece competitivo: analizar una base de código de medio millón de tokens consume $5 de entrada más el costo de salida proporcional a la extensión del informe generado, típicamente entre $2 y $10 adicionales, totalizando menos de $20 por análisis exhaustivo que reemplazaría múltiples horas de trabajo manual de un ingeniero senior. La ecuación económica favorece la automatización en prácticamente cualquier escenario donde el análisis se realiza con frecuencia o urgencia.

📊 Caso de uso: análisis financiero multi documento

Una firma de inversión evalúa la adquisición potencial de una empresa objetivo. El analista puede cargar en Opus 4.6: tres años de reportes financieros trimestrales, transcripciones de 12 llamadas con inversionistas, documentación regulatoria completa, 50 artículos de prensa sobre la industria, análisis de competidores, y contratos clave. El sistema identifica las tendencias de revenue ocultas, extrae los compromisos verbales del management en las transcripciones que contradicen las proyecciones escritas, detecta los cambios en el lenguaje que preceden los anuncios de restructuración, y produce un memorándum de inversión con secciones dedicadas a los riesgos específicos respaldados por citas exactas. Tiempo invertido: 45 minutos de configuración y revisión versus tres días de análisis manual.

La integración con Microsoft Office, específicamente las mejoras sustanciales en Claude para Excel y el lanzamiento de Claude en PowerPoint en preview de investigación, señala una estrategia de distribución mediante las herramientas establecidas. Los profesionales no técnicos que jamás interactuarían con la API directa pueden acceder a las capacidades avanzadas mediante interfaces familiares, democratizando la productividad algorítmica más allá de los equipos de ingeniería. Un analista financiero puede invocar Opus 4.6 desde una celda de Excel para sintetizar los datos dispersos en múltiples hojas, o un consultor puede solicitar la generación de una presentación completa en PowerPoint a partir de un documento de investigación extenso, tareas que previamente requerían scripting manual o procesamiento fragmentado.

La ausencia de métricas publicadas sobre la latencia y el throughput genera un interrogante práctico. Procesar un millón de tokens de entrada presumiblemente requiere segundos o incluso minutos de tiempo de inicialización antes de que el modelo comience a generar el output, potencialmente limitando la viabilidad en las aplicaciones interactivas donde los usuarios esperan respuestas inmediatas. Anthropic no especifica si el adaptive thinking y el context compaction introducen un overhead adicional, ni proporciona orientación sobre cuándo activar manualmente los niveles de esfuerzo superiores versus confiar en las heurísticas automáticas del sistema. Los desarrolladores que despliegan soluciones de cara al cliente necesitarán experimentación empírica para caracterizar los tradeoffs entre calidad, costo y tiempo de respuesta en sus casos de uso específicos.

Posicionamiento competitivo y trayectoria futura

La coronación de Opus 4.6 como el modelo líder en el contexto extendido no implica una victoria permanente. OpenAI típicamente responde a los lanzamientos competitivos con actualizaciones propias en una ventana de semanas, y los rumores persistentes sugieren que GPT-5.3 con capacidades de contexto ampliadas está en preparación avanzada. Google ha demostrado una agilidad similar, actualizando Gemini 3 Pro repetidamente durante el trimestre reciente. La dinámica resultante beneficia a los usuarios finales: la competencia intensa comprime los ciclos de innovación y presiona los precios a la baja, mientras provoca la fragmentación del ecosistema que complica las decisiones de vendor lock-in para las organizaciones que construyen infraestructura crítica sobre estos modelos.

Desde la perspectiva técnica, alcanzar un millón de tokens funcionales representa un hito arquitectónico pero no un límite físico. Las investigaciones académicas recientes han demostrado modelos experimentales operando con contextos de 10 millones de tokens o superiores mediante técnicas de atención dispersa y representaciones jerárquicas. La pregunta no es si las ventanas de contexto continuarán expandiéndose, sino a qué velocidad y con qué costo computacional. Cada orden de magnitud adicional impone desafíos cuadráticos o cúbicos en el uso de memoria según la arquitectura específica, requiriendo una innovación algorítmica sostenida para mantener la viabilidad económica.

El énfasis de Anthropic en la seguridad y la alineación, dimensiones no capturadas en los benchmarks de rendimiento puro, constituye un diferenciador estratégico para los clientes empresariales con preocupaciones de compliance y reputación. La compañía ha publicado extensivamente sobre los mecanismos de supervisión constitucional, el rechazo de consultas dañinas, y la auditoría de comportamiento en escenarios adversariales. Un modelo ligeramente menos capaz en una tarea técnica específica puede ser preferible si exhibe una robustez superior contra el jailbreaking, la inyección de prompts maliciosos, o la generación de contenido que violaría las políticas corporativas. Estas consideraciones pesan más conforme los sistemas autónomos asumen responsabilidades con consecuencias legales o éticas directas.

Referencias

Anthropic. (2026). Introducing Claude Opus 4.6. https://www.anthropic.com/news/claude-opus-4-6

Anthropic. (2026). Claude Opus 4.5. https://www.anthropic.com/claude/opus

CNBC. (2026). Anthropic launches Claude Opus 4.6 as AI moves toward a 'vibe working' era. https://www.cnbc.com/2026/02/05/anthropic-claude-opus-4-6-vibe-working.html

TechCrunch. (2026). Anthropic releases Opus 4.6 with new 'agent teams'. https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/

Amazon Web Services. (2026). Claude Opus 4.6 model from Anthropic available in Amazon Bedrock. https://www.aboutamazon.com/news/aws/anthropic-claude-4-opus-sonnet-amazon-bedrock

InfoQ. (2025). Claude Sonnet 4 Expands to 1 Million Token Context Window. https://www.infoq.com/news/2025/08/claude-sonnet-4/

Vertu. (2025). GPT-5.2 Benchmark Analysis: Performance Comparison vs GPT-5.1 & Gemini 3 Pro. https://vertu.com/ai-tools/gpt-5-2-benchmark-analysis-performance-comparison-vs-gpt-5-1-gemini-3-pro/

Intuition Labs. (2026). GPT-5.2 & ARC-AGI-2: A Benchmark Analysis of AI Reasoning. https://intuitionlabs.ai/articles/gpt-5-2-arc-agi-2-benchmark

Reddit r/Anthropic. (2025). Claude Sonnet 4 now supports 1M tokens of context. https://www.reddit.com/r/Anthropic/comments/1mocu53/claude_sonnet_4_now_supports_1m_tokens_of_context/

Anthropic lanza Opus 4.6: GPT-5.2 queda 6 puntos atrás en búsqueda web agéntica