GPT-5.5: el primer modelo de OpenAI diseñado para actuar, no solo responder

GPT-5.5: el modelo que trabaja solo

OpenAI lanzó su sistema más capaz hasta la fecha, uno que no solo responde preguntas sino que planifica, ejecuta, corrige y entrega resultados completos. La brecha entre asistente y agente acaba de cerrarse un tramo decisivo.

Por el equipo editorial | 24 de abril, 2026

La escena que describió un ingeniero de software durante las pruebas beta de GPT-5.5 se ha repetido en distintas formas desde que OpenAI la incluyó en su anuncio oficial. El desarrollador asignó al sistema una tarea: rediseñar el módulo de comentarios en un editor colaborativo de Markdown. Regresó horas después. Lo que encontró no era un borrador a medio terminar ni una lista de sugerencias: era una pila de doce diferencias de código casi completa, generada de forma autónoma, con diagnóstico de origen, correcciones aplicadas y previsión de impacto sobre el resto del sistema. Nadie lo supervisó. Nadie lo guió paso a paso. El modelo trabajó solo.

Ese relato condensa mejor que cualquier benchmark lo que distingue a GPT-5.5 de sus predecesores. No se trata de un salto en elocuencia ni de una mejora cosmética en la calidad de las respuestas conversacionales. Lo que OpenAI presentó el 22 de abril de 2026 es un sistema construido alrededor de una capacidad diferente: la de sostener tareas de larga duración, con múltiples pasos interdependientes, usando herramientas externas, corrigiendo sus propios errores y avanzando aun cuando las instrucciones iniciales son imprecisas o incompletas. En la jerga del sector, esto se denomina capacidad agéntica. En términos más llanos, significa que el modelo puede actuar, no solo responder.

Del asistente al agente: qué cambió realmente

Desde sus primeras versiones públicas, los grandes modelos de lenguaje funcionaron bajo una lógica de pregunta y respuesta. El usuario escribía, el sistema generaba texto, la interacción terminaba. Incluso las versiones más sofisticadas de GPT-4 y GPT-5 operaban mayoritariamente dentro de esa dinámica, con capacidades agénticas presentes pero limitadas, tendentes a desviarse en tareas largas y propensas a errores cuando el contexto se extendía demasiado. GPT-5.5 parte de un diseño diferente: la autonomía no es una función opcional, sino el eje alrededor del cual se construyó el sistema.

Los números respaldan esa afirmación. En Terminal-Bench 2.0, una prueba que simula flujos de trabajo complejos en línea de comandos, el nuevo modelo alcanza el 82,7%, frente al 75,1% de su antecesor directo. En OSWorld-Verified, que mide si un sistema puede operar entornos informáticos reales de forma autónoma, escala hasta el 78,7%. Y en GDPval, una evaluación que abarca 44 ocupaciones distintas y mide la capacidad de producir trabajo de conocimiento bien especificado, llega al 84,9%. Cada uno de esos índices representa tareas que no se resuelven con una sola inferencia, sino con secuencias de decisiones encadenadas donde el modelo debe planificar, verificar y ajustar.

Quizá más reveladora que cualquier puntuación sea la métrica de eficiencia. OpenAI subraya que GPT-5.5 llega a los mismos resultados que GPT-5.4 usando menos tokens, lo que en términos prácticos significa que hace más trabajo con menos recursos computacionales. Esa reducción en el costo por tarea es lo que justifica, al menos parcialmente, el precio más alto por token de salida.

Presentación oficial de GPT-5.5 por OpenAI (22 de abril, 2026). Fuente: canal oficial de OpenAI en YouTube.

Comparativa de benchmarks clave entre GPT-5.4 y GPT-5.5. Fuentes: OpenAI, gHacks Tech News, Hipertextual (abril 2026).

Código, ciencia y atención al cliente: tres frentes donde la diferencia se palpa

La programación fue el terreno elegido por OpenAI para demostrar las capacidades del sistema, y los resultados son consistentes. En SWE-Bench Pro, que evalúa la resolución de problemas reales extraídos de repositorios GitHub, GPT-5.5 alcanza el 58,6%. Un porcentaje que, visto en frío, puede parecer modesto, pero que cobra otra dimensión al considerar que las tareas involucradas tienen una duración media estimada de resolución humana de veinte horas. En Expert-SWE, la prueba interna de OpenAI diseñada específicamente para ese horizonte temporal, el sistema también supera a la generación anterior. Lo que el modelo hace no es completar ejercicios escolares de código, sino intervenir en sistemas reales, identificar el origen de fallos y propagar las correcciones hacia los componentes afectados sin que nadie le señale dónde mirar.

En ciencia, los avances son igualmente notables aunque menos visibles para el público general. En GeneBench, una evaluación de análisis de datos genéticos y biología cuantitativa con múltiples etapas, GPT-5.5 puntúa 25%, frente al 19% de GPT-5.4. La versión Pro del modelo escala hasta 33,2%. En BixBench, otra prueba del ámbito bioinformático, el sistema llega al 80,5%, seis puntos y medio por encima de su predecesor. OpenAI incluyó además un dato que, de verificarse en la comunidad científica, resultaría históricamente significativo: una versión interna del modelo, equipada con un arnés personalizado, contribuyó a una nueva demostración sobre números de Ramsey en combinatoria matemática, posteriormente verificada con el asistente de pruebas formales Lean.

El tercer frente donde GPT-5.5 deja una huella clara es en la atención a clientes y flujos de trabajo empresariales. En Tau2-bench Telecom, una evaluación de gestión de consultas complejas sin ajuste previo al sistema, el modelo alcanza el 98%, desde el 92,8% anterior. Ese incremento se traduce en términos concretos: una plataforma de soporte puede confiar en que el sistema completará interacciones complicadas, con múltiples pasos de verificación y resolución, sin necesidad de intervención humana en la mayoría de los casos.

Datos clave de GPT-5.5 al lanzamiento:

Disponible para planes Plus, Pro, Business, Enterprise y Edu en ChatGPT y Codex desde el 22 de abril de 2026. Ventana de contexto de 400.000 tokens en Codex. API próximamente con precio base de $5 por millón de tokens de entrada y $30 por millón de salida. Modo rápido disponible a 1,5 veces la velocidad estándar, al costo de 2,5 veces el precio base. Precio Batch y Flex API a la mitad del estándar.

Modelo / Nivel	Input (por M tokens)	Output (por M tokens)	Acceso
GPT-5.5 estándar	$5	$30	Plus, Pro, Business, Enterprise
GPT-5.5 Pro	$30	$180	Pro, Business, Enterprise
GPT-5.5 Fast Mode	~$12,5	~$75	Codex (todos los planes)
GPT-5.5 Batch / Flex	$2,5	$15	API (próximamente)

Precios orientativos de GPT-5.5 en API y modalidades de acceso. Fuente: OpenAI / gHacks Tech News (abril 2026).

El umbral que nadie quiere cruzar solo

Una mayor autonomía implica, inevitablemente, una mayor capacidad de hacer daño. OpenAI clasifica las aptitudes de GPT-5.5 en ciberseguridad y biología como "Alta" dentro de su Marco de Preparación, el mismo nivel asignado a sus capacidades para encontrar y explotar vulnerabilidades en sistemas informáticos. El modelo supera a GPT-5.4 en CyberGym, una evaluación de seguridad ofensiva, con un 81,8% frente al 79% anterior. Pese a que no alcanzó el umbral "Crítico", la compañía optó por desplegar clasificadores más estrictos para detectar usos de riesgo en tiempo real; una medida que, reconoce, puede resultar restrictiva para algunos usuarios legítimos mientras se calibra el sistema.

La respuesta de OpenAI a ese dilema es pragmática: en lugar de restringir las capacidades de ciberseguridad de forma uniforme, la compañía lanza en paralelo un programa denominado Trusted Access for Cyber, que permite a usuarios verificados, como investigadores de seguridad e instituciones académicas, acceder a las funciones avanzadas del modelo en ese ámbito con menos restricciones. La lógica subyacente es que los actores con intenciones defensivas no deberían pagar el precio de las medidas diseñadas para contener a los ofensivos. Si esa distinción puede mantenerse en la práctica es una pregunta que el sector apenas comienza a responder.

Lo que GPT-5.5 representa en el arco más largo de la industria es la consolidación de una tendencia que comenzó como experimento y ya no lo es. Los modelos de lenguaje dejaron de ser herramientas de consulta para convertirse en sistemas capaces de ejecutar trabajo real, sostenido y complejo. Eso cambia lo que una empresa o un individuo puede esperar de esta tecnología, pero también cambia las preguntas pertinentes sobre control, responsabilidad y supervisión. Cuando un sistema trabaja veinte horas equivalentes mientras su operador no mira la pantalla, la pregunta ya no es si puede ser útil sino quién responde cuando algo sale mal.

"GPT-5.5 entiende lo que intentás hacer más rápido y puede asumir más trabajo por sí mismo." OpenAI, comunicado de lanzamiento oficial, 22 de abril de 2026

Referencias

OpenAI. "Introducing GPT-5.5." openai.com/index/introducing-gpt-5-5/ (22 de abril, 2026).

OpenAI. "GPT-5.5 System Card." openai.com/index/gpt-5-5-system-card/ (22 de abril, 2026).

OpenAI. "GPT-5.5 Deployment Safety: Cybersecurity." deploymentsafety.openai.com/gpt-5-5/cybersecurity (22 de abril, 2026).

Hipertextual. "GPT-5.5: el modelo más potente de OpenAI llega a ChatGPT." hipertextual.com (22 de abril, 2026).

gHacks Tech News. "OpenAI Releases GPT-5.5 With Stronger Agentic Coding, Computer Use, and Scientific Research Capabilities." ghacks.net (24 de abril, 2026).

Interesting Engineering. "OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark score." interestingengineering.com (23 de abril, 2026).

Fast Company. "OpenAI releases GPT-5.5, a more powerful engine for coding, science and general work." fastcompany.com (23 de abril, 2026).

NVIDIA Blog. "OpenAI's New GPT-5.5 Powers Codex on NVIDIA Infrastructure." blogs.nvidia.com (22 de abril, 2026).

Digital Applied. "GPT-5.5 Complete Guide: Thinking, Pro and 1M Context." digitalapplied.com (22 de abril, 2026).

Letsdatascience. "OpenAI Releases GPT-5.5 With Expanded Cybersecurity Safeguards." letsdatascience.com (23 de abril, 2026).

OpenAI. "Introducing GPT-5.5" . youtube.com/watch?v=blGtYq9mL18 (22 de abril, 2026).

GPT-5.5: el primer modelo de OpenAI diseñado para actuar, no solo responder