Ckaude Sonnet 4.6: cuando lo accesible supera lo premium

Anthropic lanzó Claude Sonnet 4.6 con una ventana de contexto de un millón de tokens en beta, precios sin cambios y métricas que en varios rubros superan a su propio modelo insignia anterior. La ecuación precio-rendimiento que durante años fue el talón de Aquiles de los sistemas de segunda línea acaba de cambiar de manera estructural.

Por el equipo editorial | 17 de febrero, 2026

Hay un momento preciso en el ciclo de vida de una tecnología en que la versión accesible deja de ser una concesión y se convierte en la opción inteligente. Para los grandes modelos de lenguaje, ese momento acaba de materializarse. Anthropic publicó este lunes Claude Sonnet 4.6, la iteración más capaz de su línea media, y lo hizo sin tocar los precios ni restringir el acceso: los usuarios de los planes gratuito y de pago encontraron el modelo disponible como opción predeterminada desde el primer día. No hubo anuncio de lista de espera, ni acceso escalonado por niveles premium. Simplemente estaba ahí.

La decisión tiene implicancias que van más allá del marketing. Sonnet 4.6 no es solo una mejora incremental sobre su predecesor directo; en varios benchmarks estándar del sector supera a Claude Opus 4.5, el modelo insignia que la propia compañía ofreció apenas tres meses atrás como su sistema más sofisticado. Que el modelo de rango intermedio alcance o supere al buque insignia anterior no es un accidente: es la señal más elocuente de cuán rápido se mueve la frontera del rendimiento.

La lógica detrás del salto

Para comprender qué cambió en Sonnet 4.6 hay que entender primero qué fallaba en sus antecesores. El problema crónico de los modelos de rango medio no era la inteligencia en estado puro sino la consistencia durante tareas prolongadas: perdían el hilo en conversaciones extensas, duplicaban código en lugar de refactorizarlo, ignoraban restricciones establecidas al inicio de una sesión, y producían resultados que se deterioraban a medida que el contexto crecía. Era el equivalente de contratar a alguien brillante que olvida los detalles del encargo cada vez que sale a almorzar.

Anthropic atacó ese problema desde varios frentes simultáneos. La ventana de contexto se expandió a un millón de tokens en fase beta, el doble del límite anterior de 500.000. Más importante que el número es lo que la empresa reporta sobre calidad de uso: el modelo no solo almacena más información sino que razona efectivamente sobre ella. En la evaluación Vending-Bench Arena, que simula la administración competitiva de un negocio a lo largo del tiempo, Sonnet 4.6 desarrolló una estrategia que ninguno de sus competidores ejecutó: invirtió de forma agresiva en capacidad durante los primeros diez meses simulados y luego pivotó hacia la rentabilidad en el tramo final. El timing resultó decisivo. No fue un hallazgo menor: fue planificación a largo plazo genuina, el tipo de razonamiento que los modelos de costo medio solían evitar porque los llevaba a errores acumulativos.

En programación, los números cuentan una historia similar. En SWE-bench Verified, el estándar de referencia para medir cuántas fallas reales de GitHub puede resolver un modelo de manera autónoma, Sonnet 4.6 alcanzó 79,6%, frente al 77,2% de su antecesor. En Terminal-Bench 2.0, que evalúa codificación en entornos de terminal, el salto fue de 51,0% a 59,1%. En la práctica, los desarrolladores que accedieron con anticipación al sistema informaron preferirlo sobre Sonnet 4.5 en aproximadamente el 70% de los casos; lo que les resultó más valioso no fue la velocidad sino la reducción de errores: menos código duplicado, menos afirmaciones falsas de éxito, menos sobreingeniería en tareas que no la requerían.

Comparativa de rendimiento entre Claude Sonnet 4.6, Sonnet 4.5, Opus 4.6 y Opus 4.5 en benchmarks clave de programación agéntica, uso de computadora, análisis financiero y tareas de oficina. Los valores corresponden a los resultados oficiales publicados por Anthropic el 17 de febrero de 2026.

El uso autónomo del ordenador, también llamado computer use, es otra de las áreas donde el avance resulta especialmente visible. En OSWorld-Verified, que mide la capacidad de un modelo para completar tareas reales en aplicaciones como Chrome, LibreOffice y VS Code sin conectores especiales, Sonnet 4.6 obtuvo 72,5%: prácticamente idéntico al 72,7% de Opus 4.6, el modelo más costoso de la compañía, y muy por encima del 61,4% de su predecesor Sonnet 4.5. Para un usuario que necesita que la herramienta complete formularios complejos, navegue pestañas múltiples o extraiga datos de documentos corporativos, la diferencia entre ambas versiones es la diferencia entre un asistente que entiende la tarea y uno que la adivina.

        Dato clave: En la evaluación Finance Agent v1.1, que mide capacidad para completar tareas financieras de múltiples pasos en un entorno agéntico, Sonnet 4.6 obtuvo 63,3%, superando tanto a Sonnet 4.5 (54,5%) como al propio Opus 4.6 (60,1%). Para análisis financiero complejo, el modelo de precio medio ya supera al flagship de mayor costo.
    

Precio fijo, capacidad creciente

La ecuación económica es donde la decisión de Anthropic adquiere su dimensión más estratégica. Sonnet 4.6 mantiene el precio de su predecesor: tres dólares por millón de tokens de entrada y quince por millón de tokens de salida a través de la API. Opus 4.6 cuesta cinco y veinticinco dólares respectivamente. En términos prácticos, Sonnet genera alrededor de un 67% más de procesamiento por dólar que Opus, una brecha que se vuelve especialmente relevante en flujos de trabajo donde el costo viene de prompts largos y respuestas extensas, es decir, casi todos los casos de uso empresarial serios.

La compañía también habilitó descuentos adicionales: hasta el 90% de ahorro mediante caché de prompts y un 50% adicional con procesamiento por lotes. Para organizaciones que despliegan agentes a escala, estas cifras no son detalles técnicos; son la diferencia entre un proyecto viable y uno que no cierra financieramente.

"Para tareas de codificación complejas, especialmente cuando se trabaja sobre bases de código grandes, Sonnet 4.6 ya está superando en rendimiento a todo lo que hemos probado antes." Representante de cliente empresarial, citado en el anuncio oficial de Anthropic

El modelo llegó con novedades también para quienes utilizan Excel como herramienta de trabajo. El complemento de Claude en Excel incorpora ahora conectores MCP que permiten integrar datos de plataformas financieras como S&P Global, LSEG, Daloopa, PitchBook, Moody's y FactSet sin abandonar la hoja de cálculo. Quien tenga configurados esos conectores en Claude.ai los encontrará operativos en Excel de manera automática. La funcionalidad está disponible desde los planes Pro, Max, Team y Enterprise.

En paralelo, el lanzamiento incluyó una versión preliminar de Claude en PowerPoint y mejoras sustanciales en la suite de herramientas para desarrolladores. La búsqueda web y las herramientas de extracción ahora generan y ejecutan código de manera automática para filtrar resultados y retener solo el contenido relevante, lo que reduce el consumo de tokens y mejora la calidad de las respuestas en tareas de investigación. La ejecución de código, la memoria persistente y las llamadas programáticas a herramientas pasaron de fase beta a disponibilidad general.

Rendimiento en benchmarks seleccionados: Sonnet 4.6 vs. competencia

Codificación agéntica (SWE-bench Verified): Sonnet 4.6: 79,6% / Opus 4.6: 80,8% / GPT-5.2: 80,0% / Gemini 3 Pro: 78,0%

Uso de computadora (OSWorld-Verified): Sonnet 4.6: 72,5% / Opus 4.6: 72,7% / GPT-5.2: 38,2% / Gemini 3 Pro: no disponible

Análisis financiero agéntico (Finance Agent v1.1): Sonnet 4.6: 63,3% / Opus 4.6: 60,1% / GPT-5.2: 59,0% / Gemini 3 Pro: 55,2%

Tareas de oficina (GDPval-AA Elo): Sonnet 4.6: 1633 / Opus 4.6: 1606 / GPT-5.2: 1462 / Gemini 3 Pro: 1201

Resolución de problemas nuevos (ARC-AGI-2): Sonnet 4.6: 58,3% / Opus 4.6: 68,8% / GPT-5.2: 54,2% / Gemini 3 Pro: 31,1%

Lo que Opus 4.6 todavía retiene

Sería impreciso concluir que Sonnet 4.6 hace redundante a su hermano mayor. Anthropic es explícita al respecto: Opus 4.6 sigue siendo la opción más sólida para tareas que demandan razonamiento de máxima profundidad, como refactorizaciones completas de bases de código, coordinación de múltiples agentes en flujos de trabajo complejos y situaciones donde el margen de error debe ser virtualmente nulo. En el benchmark de razonamiento multidisciplinario Humanity's Last Exam, Opus 4.6 obtiene 53,0% con herramientas activas frente al 49,0% de Sonnet; en búsqueda agéntica mediante BrowseComp, la brecha se amplía considerablemente: 84,0% contra 74,7%.

También en razonamiento de posgrado medido por GPQA Diamond, Opus mantiene una ventaja: 91,3% frente al 89,9% de Sonnet. En resolución de problemas completamente nuevos medida por ARC-AGI-2, la diferencia es más marcada aún: 68,8% contra 58,3%. Para quien trabaja en investigación científica avanzada, generación de hipótesis complejas o coordinación de sistemas autónomos de alta criticidad, Opus 4.6 sigue siendo el instrumento correcto.

Pero la frontera entre ambos se ha corrido de manera definitiva. Tareas que hace seis meses exigían el modelo más costoso ahora son territorio de Sonnet. Eso no es una curiosidad técnica sino una reconfiguración del mercado: implica que más empresas pueden desplegar capacidades avanzadas a costos que sus márgenes toleran, que más desarrolladores pueden experimentar sin restricciones presupuestarias, y que más usuarios individuales acceden a herramientas que antes solo existían en el extremo premium del catálogo.

Hay algo casi paradójico en observar cómo el ritmo de progreso convierte sistemáticamente al modelo de menor precio en el suficientemente bueno para la mayoría de usos, mientras el modelo de mayor precio se especializa en un territorio cada vez más estrecho y exigente. Anthropic parece haber comprendido esa dinámica y la está usando como palanca: no para devaluar su línea alta sino para expandir radicalmente la base de usuarios que encuentran en su oferta media una respuesta genuina. El límite entre lo accesible y lo poderoso no desapareció. Simplemente se desplazó, una vez más, en la dirección correcta.

Relación costo por millón de tokens (entrada/salida) entre los modelos Claude Sonnet 4.6 y Opus 4.6 en la API de Anthropic, con indicación de los descuentos disponibles mediante caché de prompts y procesamiento por lotes.

Referencias

Anthropic. "Introducing Claude Sonnet 4.6." Blog oficial de Anthropic, 17 de febrero de 2026. https://www.anthropic.com/news/claude-sonnet-4-6

Anthropic. "Claude Sonnet 4.6." Página de producto oficial. https://www.anthropic.com/claude/sonnet

Anthropic. "Introducing Claude Opus 4.6." Blog oficial de Anthropic, 4 de febrero de 2026. https://www.anthropic.com/news/claude-opus-4-6

Investing.com. "Anthropic launches Claude Sonnet 4.6 with 1M token context window." 17 de febrero de 2026. https://www.investing.com/news/company-news/anthropic-launches-claude-sonnet-46-with-1m-token-context-window

MLQ.ai. "Anthropic Introduces Claude Sonnet 4.6 with Coding and Context Advances." 17 de febrero de 2026. https://mlq.ai/news/anthropic-introduces-claude-sonnet-46-with-coding-and-context-advances

Diario Bitcoin. "Anthropic presenta Claude Sonnet 4.6 con contexto de 1 millón de tokens y foco en agentes." 16 de febrero de 2026. https://www.diariobitcoin.com/ia/anthropic-presenta-claude-sonnet-4-6

Ecosistema Startup. "Claude Sonnet 4.6: rendimiento flagship a 20% del costo." 16 de febrero de 2026. https://ecosistemastartup.com/claude-sonnet-4-6-rendimiento-flagship-a-20-del-costo

Ckaude Sonnet 4.6: cuando lo accesible supera lo premium