El 5 de marzo de 2026 OpenAI presentó GPT-5.4 como una actualización orientada al trabajo profesional, disponible en ChatGPT, en la API y en Codex. La novedad no está en que redacte con más gracia. Está en que empieza a operar software: observa pantallas, decide una secuencia, ejecuta acciones de teclado y mouse, y valida si llegó al resultado.
Una cifra ilustra el umbral práctico. En OSWorld-Verified, una evaluación de tareas en escritorio a partir de capturas de pantalla, GPT-5.4 alcanzó un 75,0% de éxito. En la misma prueba se reporta un rendimiento humano del 72,4%. Ese tipo de diferencia es el momento en que una herramienta deja de ser un asistente que “ayuda” y pasa a ser un operador que “cierra” un flujo sin supervisión constante.
La empresa sostiene además que mejoró la fiabilidad: en prompts desidentificados donde usuarios habían señalado fallas, las afirmaciones individuales resultaron 33% menos propensas a ser falsas, y las respuestas completas 18% menos propensas a contener algún error, frente a GPT-5.2. En el terreno, esa caída de error es lo que habilita delegar partes del trabajo sin convertir cada salida en una auditoría exhaustiva.
De los chatbots a los agentes de escritorio
El “uso de computadora” nativo funciona como automatización con ojos. En lugar de depender de APIs perfectas, el agente puede trabajar sobre la interfaz que ya existe, del mismo modo en que lo hace cualquier persona. Cuando una plataforma cambia un menú o reordena botones, el sistema no queda necesariamente fuera de juego, porque no está atado a un flujo rígido.
OpenAI publica señales adicionales de esa persistencia. En BrowseComp, un benchmark de búsqueda web que exige insistencia para encontrar información difícil de ubicar, GPT-5.4 sube a 82,7% frente a 65,8% en GPT-5.2. En pruebas de uso de herramientas y conectores también mejora, lo que apunta a un rasgo menos glamoroso pero decisivo: terminar lo empezado.
En OSWorld-Verified la comparación con GPT-5.2 es todavía más elocuente: el modelo anterior queda en 47,3%. Esa brecha sugiere que el avance no es marginal, sino de calidad: más tareas llegan al final sin intervención humana. En pruebas de navegación web citadas por la compañía, el patrón es parecido, con mejores tasas de éxito cuando el agente combina observación visual y acciones guiadas.
🖥️ Escenario: una tarea rutinaria que se vuelve un flujo automático
La escena: un equipo de operaciones recibe pedidos de alta de proveedores. Cada caso exige abrir un portal, verificar datos, cargar campos, descargar comprobantes y archivar.
La intervención: un agente basado en GPT-5.4 lee el correo, navega el sitio, completa el formulario, guarda el PDF y deja un resumen para auditoría.
El punto sensible: el valor no está en un click, sino en sostener coherencia cuando falta un dato, cuando hay que retroceder o cuando la interfaz cambia.
Ese tipo de tareas son el “trabajo invisible” de la economía digital. No ganan premios, pero consumen horas, traban equipos y multiplican errores pequeños. Si un agente logra ejecutar de punta a punta, el ahorro no se mide en frases, sino en colas que se acortan y tickets que se cierran.
También hay impacto en ingeniería. La diferencia entre sugerir un comando y ejecutar una secuencia completa de depuración se refleja en benchmarks de programación. En la comparación publicada por OpenAI, GPT-5.4 mejora sobre GPT-5.2 en SWE-Bench Pro y salta con fuerza en Terminal-Bench 2.0, una señal de que la empresa busca rendimiento en flujos reales, no solo en respuestas aisladas.
Menos errores, más oficio
La segunda pata de GPT-5.4 es la constancia en tareas de conocimiento. OpenAI destaca GDPval, una evaluación que pide productos concretos de trabajo en 44 ocupaciones. El modelo nuevo “gana o empata” en 83,0% de comparaciones frente a profesionales, mientras GPT-5.2 se queda en 70,9%. La lectura es directa: la apuesta está puesta en entregables, no en ocurrencias.
En planillas aparece otro dato fuerte. En un benchmark interno de modelado que emula tareas de un analista junior de banca de inversión, GPT-5.4 alcanza 87,3% frente a 68,4% en GPT-5.2. La diferencia no es el orgullo del laboratorio, es la cantidad de correcciones manuales que se eliminan cuando el borrador ya viene armado con lógica.
La mejora en presentaciones suele parecer un lujo hasta que se mira el costo real del “arreglo final”. En una batería de prompts evaluada por revisores humanos, OpenAI afirma que las presentaciones de GPT-5.4 fueron preferidas 68% de las veces frente a GPT-5.2, por estética más cuidada y variedad visual. Traducido: menos tiempo perdido peleando con diapositivas repetitivas, más probabilidades de llegar a una versión que un director apruebe sin reescritura completa.
En el mundo legal, donde la precisión no es decorativa, Harvey aparece citado con un 91% en una evaluación orientada a análisis transaccional. Ese número se usa como argumento para probar sistemas en tareas acotadas: extraer obligaciones, comparar cláusulas, detectar inconsistencias entre versiones. El objetivo no es reemplazar un estudio, sino comprimir horas de lectura en minutos verificables.
La mejora también se nota en lectura de documentos. En OmniDocBench, OpenAI reporta una caída del error promedio medido por distancia de edición normalizada, de 0,140 en GPT-5.2 a 0,109 en GPT-5.4. En la práctica, suele significar menos tablas desarmadas, menos columnas confundidas y menos números “cortados” cuando un PDF se vuelve planilla.
Precio, contexto y la carrera por la eficiencia
El dato que completa el cuadro es el tamaño de contexto. GPT-5.4 soporta hasta un millón de tokens en API, lo que habilita analizar colecciones masivas de documentos y sostener planes largos sin perder piezas. Para una empresa, eso permite que un agente lea políticas internas, contratos y correos relevantes antes de proponer una acción, en lugar de improvisar con fragmentos.
OpenAI también introduce “tool search”, una forma de navegar grandes ecosistemas de conectores sin cargar siempre un inventario gigantesco de herramientas. En entornos reales, esta decisión reduce fricción, evita tokens desperdiciados y hace más viable desplegar agentes en organizaciones con decenas de integraciones.
Hay otro detalle menos visible para el usuario final y muy concreto para un equipo de desarrollo: eficiencia de tokens. OpenAI presenta a GPT-5.4 como el modelo de razonamiento más eficiente de la serie, capaz de usar menos tokens para llegar a soluciones comparables a GPT-5.2. En sistemas que ejecutan miles de consultas diarias, esa diferencia pesa en el presupuesto y, en algunos flujos, también en velocidad.
La dimensión económica aparece en la tabla de precios. El modelo base se ofrece a 2,50 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida, con entrada cacheada más barata. La versión Pro sube a 30 dólares por millón de tokens de entrada y 180 dólares por millón de tokens de salida, orientada a cargas difíciles. Microsoft replicó el anuncio desde su plataforma Foundry, con el mismo enfoque en despliegue corporativo y control de producción.
La potencia, sin embargo, trae un cambio operativo: cuanto más puede ejecutar un agente, más cara se vuelve una equivocación. Por eso OpenAI publicó un documento de seguridad para la variante “Thinking”, donde describe mitigaciones y enfoque de despliegue para capacidades altas en áreas como ciberseguridad. La señal es nítida: el uso previsto ya no es meramente conversacional.
⚠️ Lo que cambia cuando un modelo puede ejecutar
Superficie de ataque: un agente con acceso a herramientas y cuentas vuelve más valiosa una credencial comprometida.
Errores silenciosos: una acción mal hecha puede parecer correcta y revelar el problema recién después, cuando el rastro ya se mezcló con otras operaciones.
Auditoría: el trabajo automatizado exige registros claros de qué se hizo, cuándo y con qué insumos, porque el resultado ya no es texto, es acción.
GPT-5.4 no “resuelve” la automatización por decreto. Lo que sí hace es acercar un umbral: delegar flujos completos sin convertir cada caso en un proyecto de ingeniería. A partir de aquí, la competencia no será por quién escribe el párrafo más elegante, sino por quién conecta mejor intención, ejecución y verificación. En esa carrera, la computadora deja de esperar órdenes y empieza a pedir objetivos.
Referencias
OpenAI (5 de marzo de 2026). Introducing GPT-5.4: https://openai.com/index/introducing-gpt-5-4/
OpenAI (5 de marzo de 2026). GPT-5.4 Thinking system card: https://openai.com/index/gpt-5-4-thinking-system-card/
OpenAI (marzo de 2026). Deployment Safety Hub, GPT-5.4 Thinking: https://deploymentsafety.openai.com/gpt-5-4-thinking
Microsoft (5 de marzo de 2026). GPT-5.4 en Microsoft Foundry: https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-gpt-5-4-in-microsoft-foundry/4499785
TechCrunch (5 de marzo de 2026). Lanzamiento de GPT-5.4: https://techcrunch.com/2026/03/05/openai-launches-gpt-5-4-with-pro-and-thinking-versions/
OpenAI (25 de septiembre de 2025). GDPval: https://openai.com/index/gdpval/
OSWorld (arXiv:2404.07972, 2024): https://arxiv.org/abs/2404.07972
BrowseComp (arXiv:2504.12516, 2025): https://arxiv.org/abs/2504.12516
Toolathlon (arXiv:2510.25726, 2025): https://arxiv.org/abs/2510.25726
Artificial Analysis (2026). GPT-5.4: https://artificialanalysis.ai/models/gpt-5-4



