GPT-5.4 superó a hackers profesionales en sus propios desafíos de intrusión

El modelo que aprendió a hackear: GPT-5.4 y el umbral que nadie quería cruzar

OpenAI presentó GPT-5.4 Thinking con una distinción sin precedentes: es el primer sistema de razonamiento de propósito general calificado oficialmente como amenaza "alta" en ciberseguridad bajo su propio Marco de Preparación. Resolvió el 88% de los desafíos profesionales de intrusión en redes y demostró capacidad para encadenar exploits en entornos corporativos simulados. La compañía lo desplegó de todas formas, respaldada por un arsenal de salvaguardas que, asegura, hacen el riesgo manejable.

Por el equipo editorial | 9 de marzo de 2026

Hay un juego que los hackers profesionales llevan décadas practicando en competencias cerradas. Se llama Capture the Flag, y su premisa es brutal en su simpleza: infiltrarse en una red simulada, localizar datos ocultos y retirarse sin dejar rastro. Para lograrlo hay que descifrar sistemas de cifrado, explotar fallas en aplicaciones web, moverse lateralmente entre servidores y, en los desafíos más exigentes, burlar mecanismos de detección activos. Es, en esencia, un examen práctico de intrusión donde participan los mejores técnicos del sector. Hasta hace muy poco, imaginar que un asistente conversacional de uso cotidiano pudiera superar ese examen con nota de maestro habría parecido ciencia ficción. GPT-5.4 Thinking lo hizo con un 88% de tasa de éxito en simulaciones de ataque de red.

OpenAI presentó el modelo el 4 de marzo de 2026 con una declaración que pocas organizaciones tecnológicas habrían tenido la valentía de publicar por cuenta propia: GPT-5.4 es el primer sistema de propósito general que alcanza el umbral "High" en ciberseguridad según su propio Marco de Preparación. No es una alerta externa ni una crítica de investigadores independientes. Es la evaluación interna de la compañía sobre su propio producto, publicada en el Deployment Safety Hub antes del lanzamiento comercial. La transparencia resulta notable; las implicaciones, considerablemente más pesadas.

El Marco de Preparación, actualizado en abril de 2025, clasifica los riesgos en dos niveles operativos: "High" y "Critical". El primero indica que el sistema puede ampliar rutas ya existentes hacia daños graves, como escalar la capacidad de actores maliciosos para automatizar ataques o descubrir vulnerabilidades de forma masiva. El segundo, "Critical", señala que el modelo introduce vías completamente inéditas hacia ese tipo de perjuicio, lo que lo volvería inapto para cualquier despliegue público. GPT-5.4 se sitúa en el primero de esos escalones, condición que habilitó su lanzamiento, aunque no sin la obligación previa de implementar salvaguardas que OpenAI califica como suficientes para mitigar el riesgo de daño severo.

        El contexto del umbral "High": Bajo el Marco de Preparación de OpenAI (versión 2, abril 2025), los sistemas que alcanzan capacidad "High" en ciberseguridad deben contar con salvaguardas que minimicen suficientemente el riesgo antes de ser desplegados. El nivel inmediatamente superior, "Critical", implicaría que el modelo puede identificar y desarrollar exploits zero-day en sistemas reales endurecidos, o diseñar estrategias de ataque novedosas de extremo a extremo partiendo únicamente de un objetivo de alto nivel. GPT-5.4 no llega a ese punto, pero la progresión de la familia GPT-5 en estos benchmarks ha sido acelerada: el modelo base obtuvo un 27% en agosto de 2025; GPT-5.1-Codex-Max alcanzó el 76% en noviembre de ese año; GPT-5.4 Thinking toca ahora el 88% en simulaciones de ataque de red.
    

Lo que los números revelan sobre el sistema

La evaluación de ciberseguridad de GPT-5.4 comprende tres baterías de pruebas complementarias. Los desafíos Capture the Flag a nivel profesional miden la capacidad de identificar y explotar vulnerabilidades en condiciones de competencia real. CVE-Bench examina si el agente puede aprovechar de forma consistente fallos documentados en aplicaciones web del mundo real. La tercera batería, y la más reveladora, es el Cyber Range: un entorno de red emulado donde el sistema debe planificar y ejecutar operaciones ofensivas de extremo a extremo, desde el reconocimiento inicial hasta el logro del objetivo, encadenando exploits como lo haría un atacante humano con plena autonomía operativa.

En el Cyber Range, GPT-5.4 Thinking alcanzó una tasa combinada de éxito del 73,33%, cifra que supera ampliamente a GPT-5.2 Thinking (47%) y a GPT-5.2-Codex (53,33%), aunque queda por debajo del especializado GPT-5.3-Codex (80%). El agente falló cuatro escenarios concretos: evasión de sistemas de detección y respuesta en endpoints (EDR Evasion), evasión de firewall, explotación mediante token filtrado y secuestro de autoridades de certificación con manipulación de DNS. Que haya fallado esas pruebas no es necesariamente reconfortante: los cuatro escenarios corresponden a técnicas de ataque avanzadas, no a los vectores más elementales del oficio.

La empresa de seguridad Irregular Security, contratada para una evaluación independiente, reportó que GPT-5.4 Reasoning logró el 88% en su suite de desafíos atómicos de simulación de ataque de red, el 73% en investigación y explotación de vulnerabilidades, y el 48% en desafíos de evasión. Este último porcentaje, que podría interpretarse como una debilidad relativa, sigue siendo suficiente para generar vectores de riesgo concretos: casi la mitad de los intentos de burlar sistemas de detección resultaron exitosos en los entornos evaluados.

Progresión de capacidades ofensivas en ciberseguridad a través de la familia GPT-5: tasas de éxito en benchmarks de Capture the Flag (CTF) y Cyber Range entre agosto 2025 y marzo 2026. Fuentes: OpenAI Deployment Safety Hub e Infosecurity Magazine.

Lo que estas cifras describen es una trayectoria, no un estado estático. En el lapso de seis meses, la familia GPT-5 pasó de un 27% a un 88% en evaluaciones de ataque de red. La pendiente de mejora sugiere que la clasificación "Critical" no es un horizonte lejano, sino una posibilidad que la propia compañía anticipa con seriedad. En su comunicado de diciembre de 2025, OpenAI fue explícita al señalar que evalúa cada nuevo modelo "como si pudiera alcanzar niveles de alto riesgo en ciberseguridad", una postura que revela conciencia plena sobre hacia dónde apunta la curva tecnológica.

La paradoja del arma defensiva

OpenAI no desplegó GPT-5.4 sin respuesta. La compañía expandió su denominada "pila de seguridad" con varios componentes que operan en capas concéntricas: el modelo está entrenado para rechazar solicitudes con intención dañina; hay sistemas de detección que monitorean y bloquean actividad de riesgo en tiempo real; se implementaron controles de acceso diferenciados según el perfil del usuario; y se estableció un filtro de solicitudes de mayor riesgo en superficies de retención cero de datos. A esto se suma el programa de acceso confiado, que otorga a investigadores de defensa niveles específicos de acceso a capacidades más sensibles del sistema.

El proyecto Aardvark, presentado en diciembre de 2025, encarna la lógica subyacente a toda esta arquitectura: un agente de seguridad autónomo concebido para identificar y parchear vulnerabilidades en sistemas reales antes de que los actores maliciosos las encuentren. La premisa es que si la misma tecnología puede atacar y defender, la respuesta no es suprimir sus capacidades ofensivas sino movilizarlas hacia la protección activa. Es una lógica que tiene raíces en la seguridad tradicional: los mejores defensores siempre han sido quienes también sabían vulnerar sistemas.

No obstante, la empresa XBOW demostró durante 2025 que la integración de GPT-5 en su plataforma especializada de pruebas de intrusión duplicó el rendimiento de su agente de hacking automatizado. El modelo base, evaluado de forma aislada, mostraba capacidades comparativamente modestas. Conectado a un andamiaje de herramientas ofensivas, las cifras se dispararon y el número de iteraciones necesarias para craftar un exploit bajó de una mediana de 24 a 17. Esto no constituye un fallo de las evaluaciones de OpenAI; es la naturaleza estructural del problema. Los modelos no operan en vacío: su potencial real emerge cuando actores con motivaciones específicas los integran en flujos de trabajo diseñados para maximizar su utilidad ofensiva.

⚠️ Los vectores de riesgo reconocidos por OpenAI

Automatización del descubrimiento de vulnerabilidades: Un modelo con alta tasa de éxito en CTF y CVE-Bench puede sistematizar la detección de fallos, eliminando la necesidad de analistas humanos para el trabajo de reconocimiento inicial en campañas de intrusión.

Escalabilidad sin precedentes: Lo que antes demandaba semanas de trabajo manual puede condensarse en horas de operación automatizada, abriendo la puerta a campañas de intrusión a una escala antes impracticable para actores con recursos limitados.

Efecto multiplicador en manos expertas: Los actores que ya poseen conocimiento técnico parcial encuentran en el modelo una herramienta de aceleración, no de sustitución; quienes ya saben hackear pueden hacerlo más rápido y a mayor escala.

El Grupo Asesor de Seguridad de OpenAI revisó los informes de capacidad y salvaguardas antes de autorizar el despliegue. La firma Apollo Research, encargada de evaluar comportamientos de engaño, encontró que GPT-5.4 mostró una tasa de conducta encubierta engañosa de aproximadamente el 1% en condiciones normales, comparable a sus predecesores y sin instancias de subversión activa contra los operadores. La transparencia del razonamiento interno también fue evaluada favorablemente: la capacidad del sistema para ocultar su cadena de pensamiento resultó baja, lo que OpenAI describe como una señal positiva de seguridad.

Una carrera que no admite pausa

Para comprender el peso de lo que representa GPT-5.4, vale recordar que hasta hace menos de un año ningún modelo de lenguaje de uso general había cruzado el umbral "High" en ciberseguridad. La distinción la ostentaban únicamente sistemas especializados como GPT-5.3-Codex, ajustado específicamente a tareas de programación intensiva. GPT-5.4 Thinking es un sistema de razonamiento de propósito amplio: conversa, redacta, analiza documentos, resuelve problemas matemáticos y, ahora con clasificación oficial, puede planificar y ejecutar operaciones de intrusión en redes simuladas con una eficacia que supera a muchos profesionales humanos en ejercicios comparables.

La comunidad de seguridad recibió el anuncio con una mezcla de alarma calibrada y reconocimiento técnico. CyberScoop reportó en agosto de 2025 que la firma de evaluación adversarial SPLX sometió a GPT-5 base a más de mil escenarios de ataque distintos, con resultados que describió como "casi inutilizables para empresas" en su configuración predeterminada desde el ángulo de la seguridad interna. Lo que esa evaluación midió fue diferente: no la capacidad del sistema para atacar, sino su vulnerabilidad frente a ataques. Los dos ángulos son complementarios. Un agente difícil de jailbreak para extraer instrucciones dañinas puede, simultáneamente, poseer capacidades técnicas que lo vuelven un instrumento poderoso cuando se lo utiliza con esa intención desde el origen.

Lo que ningún benchmark puede capturar del todo es el efecto multiplicador de la accesibilidad. Los desafíos Capture the Flag son ejercicios para especialistas: requieren conocimiento técnico previo para formular los prompts correctos, interpretar las respuestas del sistema y encadenar las acciones necesarias. Un agente que alcanza el 88% en esas pruebas no convierte automáticamente a cualquier usuario en un penetration tester de alto nivel. Sí reduce drásticamente la barrera de entrada para quienes ya tienen conocimiento parcial del dominio, al tiempo que proporciona a los atacantes más sofisticados una herramienta de automatización sin parangón histórico.

✅ El argumento defensivo de OpenAI

Aceleración defensiva: El mismo agente que identifica vulnerabilidades puede hacerlo a escala para que los equipos de seguridad las corrijan antes de que sean explotadas. Aardvark, el agente de seguridad autónomo de OpenAI, está construido exactamente sobre esa premisa.

Programa de acceso confiado: Investigadores de defensa con credenciales verificadas pueden acceder a capacidades más sensibles del modelo bajo acuerdos de uso responsable, habilitando operaciones legítimas de red team y pruebas de penetración supervisadas.

Monitoreo en tiempo real: Los sistemas de detección desplegados junto a GPT-5.4 pueden identificar patrones de uso ofensivo y bloquear actividad de riesgo antes de que produzca daño efectivo en entornos reales.

La pregunta que los especialistas en seguridad seguirán debatiendo es si el equilibrio entre capacidad ofensiva y salvaguardas defensivas es estable a medida que los sistemas avanzan. OpenAI proyecta que los modelos futuros mantendrán la trayectoria de mejora observada en los benchmarks de ciberseguridad, lo que significa que el umbral "Critical" se acerca con cada iteración. Ese nivel implicaría la capacidad de identificar exploits zero-day en sistemas reales endurecidos o diseñar estrategias de ataque novedosas de extremo a extremo partiendo únicamente de un objetivo expresado en lenguaje natural. No es especulación: es la extrapolación directa de la curva que GPT-5.4 acaba de confirmar con su tarjeta de seguridad oficial.

OpenAI construyó un Consejo de Riesgos de Frontera y estableció colaboraciones con actores de la industria para fortalecer el ecosistema de defensa colectiva. La compañía enmarca su postura como la de quien no puede detener la marea tecnológica, pero sí decidir cómo gestionarla. Quienes operan en la primera línea de la defensa cibernética corporativa e institucional tendrán sus propias conclusiones sobre si esa postura resulta suficientemente sólida frente a una curva que, hasta ahora, no ha dado señales de aplanarse.

Referencias

OpenAI. "GPT-5.4 Thinking System Card." Deployment Safety Hub, 4 de marzo de 2026. deploymentsafety.openai.com/gpt-5-4-thinking/gpt-5-4-thinking.pdf

OpenAI. "Introducing GPT-5.4." Blog oficial de OpenAI, 4 de marzo de 2026. openai.com/index/introducing-gpt-5-4/

OpenAI. "Cybersecurity Evaluation: Capture the Flag Challenges." Deployment Safety Hub, 4 de marzo de 2026. deploymentsafety.openai.com/gpt-5-4-thinking/capture-the-flag-ctf-challenges

OpenAI. "CVE-Bench Evaluation." Deployment Safety Hub, 4 de marzo de 2026. deploymentsafety.openai.com/gpt-5-4-thinking/cve-bench

OpenAI. "Strengthening Cyber Resilience as AI Capabilities Advance." Blog oficial de OpenAI, 9 de diciembre de 2025. openai.com/index/strengthening-cyber-resilience/

OpenAI. "Our Updated Preparedness Framework." Blog oficial de OpenAI, 14 de abril de 2025. openai.com/index/updating-our-preparedness-framework/

OpenAI. "Preparedness Framework v2." Documento técnico, abril 2025. cdn.openai.com/pdf/preparedness-framework-v2.pdf

Help Net Security. "OpenAI's GPT-5.4 Doubles Down on Safety as Competition Heats Up." 5 de marzo de 2026. helpnetsecurity.com

Axios. "Exclusive: New OpenAI Models Likely Pose 'High' Cybersecurity Risk, Company Says." 10 de diciembre de 2025. axios.com

CyberScoop. "Guess What Else GPT-5 Is Bad At? Security." 11 de agosto de 2025. cyberscoop.com

Infosecurity Magazine. "OpenAI Enhances Defensive Models to Mitigate Cyber-Threats." 10 de diciembre de 2025. infosecurity-magazine.com

XBOW. "XBOW Unleashes GPT-5's Hidden Hacking Power, Doubling Performance." Blog técnico, 2025. xbow.com/blog/gpt-5

Apollo Research. Evaluación de comportamiento engañoso para GPT-5.4 Thinking, incluida en el System Card de OpenAI, marzo 2026.

Irregular Security. Suite de evaluación de ciberseguridad atómica para GPT-5.4, incluida en el System Card de OpenAI, marzo 2026.

Mowshowitz, Zvi. "OpenAI Preparedness Framework 2.0." Substack, mayo 2025. thezvi.substack.com

GPT-5.4 superó a hackers profesionales en sus propios desafíos de intrusión