OpenAI y Paradigm confirman: los agentes de IA atacan contratos cripto mejor de lo que los defienden

Cuando romper el código es la única forma de protegerlo

OpenAI y Paradigm publicaron EVMbench, el primer estándar público que mide con precisión cuánto puede hacer un agente algorítmico contra contratos inteligentes vulnerables. Los resultados revelan una paradoja incómoda: el sistema es considerablemente más hábil para atacar que para reparar, y ese desequilibrio está redefiniendo la forma en que la industria cripto piensa la seguridad de su código.

Por el equipo editorial | 18 de febrero de 2026

Hay más de cien mil millones de dólares durmiendo dentro de código abierto. No en bóvedas bancarias ni cajas fuertes: en contratos inteligentes desplegados sobre redes públicas de blockchain, visibles para cualquiera que sepa leer una dirección de Ethereum. El código es la única cerradura. Y cuando esa cerradura tiene una grieta, no hay guardia de seguridad ni número de emergencias que contenga el daño. La ejecución es automática, inmediata e irreversible.

Durante enero de 2026, siete protocolos de finanzas descentralizadas sufrieron ataques que en conjunto superaron los 86 millones de dólares en pérdidas. El incidente más costoso del mes ni siquiera involucró un contrato defectuoso: una ingeniería social comprometió una clave de administración y transfirió 282 millones de dólares en Bitcoin y Litecoin antes de que alguien pudiera reaccionar. Es ese contexto el que rodea el lanzamiento de EVMbench, la herramienta que OpenAI y la firma de inversión especializada en cripto Paradigm publicaron en febrero de 2026 para medir con precisión cuánto puede hacer un agente automatizado cuando enfrenta contratos vulnerables, tanto para destruirlos como para protegerlos.

El dinero que vive dentro del código

Un contrato inteligente es un programa que administra dinero sin intermediarios. Se despliega en una red pública, ejecuta reglas de forma automática y no puede detenerse ni modificarse una vez activo, a menos que su propio código lo contemple. Esa característica lo hace poderoso en el plano financiero y profundamente frágil ante el error. Si hay un fallo en la lógica, cualquiera puede aprovecharlo. No hace falta comprometer un servidor ni sobornar a un empleado: basta con encontrar la instrucción mal escrita y enviar las transacciones correctas en la secuencia adecuada. Ethereum, la red donde opera la mayor parte de este ecosistema, es descrita con frecuencia como un "bosque oscuro": bots y agentes automatizados escanean de forma continua las transacciones pendientes en busca de patrones explotables, y cualquier oportunidad rentable puede copiarse o anticiparse en cuestión de segundos.

La industria respondió con auditorías de código, un negocio que mezcla rigor técnico con urgencia comercial. Plataformas como Code4rena han facilitado más de 450 revisiones competitivas y la identificación de miles de vulnerabilidades críticas en proyectos líderes del sector. Su modelo convoca a investigadores independientes que compiten por recompensas proporcionales a la gravedad de sus hallazgos. Los resultados han sido notables, pero el sistema carga con un cuello de botella estructural: el talento especializado es escaso y costoso, los cronogramas de revisión ralentizan el desarrollo y los contratos más complejos pueden demandar semanas de análisis exhaustivo. El ritmo de expansión del ecosistema cripto supera desde hace tiempo la capacidad de las auditorías tradicionales para cubrirlo.

La llegada de modelos de lenguaje capaces de leer, generar y modificar código abrió una posibilidad que hasta hace poco parecía especulativa: delegar parte de ese trabajo a sistemas automatizados. No como reemplazo del criterio humano, sino como un primer filtro capaz de procesar grandes volúmenes de código en minutos. Sin embargo, protocolos como Moonwell y CrossCurve, donde código generado con asistencia algorítmica fue luego explotado por actores maliciosos, pusieron en evidencia que la misma tecnología que acelera la escritura de contratos puede, si no se controla, multiplicar su fragilidad. Para saber si la promesa de la defensa automatizada tiene sustento, hacía falta un instrumento de medición anclado en vulnerabilidades reales, reproducible y públicamente verificable.

Tres pruebas y un laboratorio virtual

EVMbench evalúa a los agentes en tres modalidades diseñadas para capturar capacidades distintas sobre el mismo conjunto de datos. El núcleo del benchmark son 120 fallos de alta severidad extraídos de 40 repositorios de auditorías competitivas, en su mayoría provenientes de Code4rena, complementados con escenarios tomados del proceso de revisión de Tempo, una blockchain L1 diseñada para pagos de alta frecuencia mediante stablecoins. Cada tarea se ejecuta dentro de un contenedor Docker aislado con Ubuntu 24.04, que replica el entorno que recibiría un auditor humano: código fuente, archivos dentro del alcance de la revisión, hallazgos automáticos previos y orientaciones sobre dónde buscar fallos, exactamente como en un concurso de auditoría real.

La modalidad Detect mide cuántas vulnerabilidades conocidas logra identificar el agente dentro de un contrato. La puntuación se calcula como tasa de cobertura ponderada por el monto de las recompensas que esos fallos generaron en las auditorías originales, lo que orienta el resultado hacia los hallazgos de mayor impacto económico. La modalidad Patch evalúa si el agente puede modificar el código vulnerable de forma que los tests existentes sigan pasando y el ataque ya no sea posible, sin alterar funcionalidades adyacentes al área corregida. La modalidad Exploit es la más directa: el sistema debe ejecutar, dentro de un sandbox basado en Anvil, una cadena de transacciones que drene fondos de un contrato defectuoso. Un validador escrito en Rust re-ejecuta las transacciones del agente, verifica los cambios en el balance de la billetera atacante y confirma si el asalto simulado resultó exitoso.

Resultados de EVMbench (febrero 2026): GPT-5.3-Codex lidera en Exploit con 72,2% y en Patch con 41,5%, ejecutando los ataques a través de Codex CLI. Claude Opus 4.6, vía Claude Code, obtiene el mejor puntaje en Detect con 45,6% y el mayor retorno promedio de auditoría simulada: 37.824 dólares sobre un máximo teórico de 218.434. GPT-5, medido aproximadamente seis meses antes, alcanzaba apenas 31,9% en Exploit; los primeros modelos evaluados al comenzar el proyecto no superaban el 20%. Con pistas de mecanismo a nivel medio, GPT-5.2 escala hasta 93,9% en Patch y 73,8% en Exploit.

Los datos describen una trayectoria de mejora que sorprendió a los propios investigadores. Cuando Paradigm y OpenAI comenzaron a construir el benchmark, los mejores modelos disponibles explotaban menos del 20% de los fallos críticos de Code4rena. La publicación del benchmark muestra que ese número superó el 72% en el transcurso de unos pocos meses. Además de GPT-5.3-Codex, el trabajo evaluó a OpenAI o3, GPT-5, GPT-5.2, Gemini 3 Pro, Claude Opus 4.5 y Claude Opus 4.6, obteniendo un panorama amplio del estado del campo en distintas familias de modelos y scaffolds. La distancia entre el primero y el último resultado en cada modalidad subraya que la elección de plataforma y arquitectura de agente afecta el desempeño tanto como la calidad del modelo base.

Puntuaciones en EVMbench por modalidad y modelo. La barra naranja (Exploit, GPT-5.3-Codex) ilustra la asimetría central del benchmark: la capacidad ofensiva supera ampliamente la defensiva en los sistemas actuales, mientras que los resultados con pistas revelan el potencial latente en reparación cuando el agente recibe orientación sobre el mecanismo vulnerado.

El guardián que ataca mejor de lo que defiende

La asimetría entre las tres modalidades es el hallazgo más significativo del benchmark. GPT-5.3-Codex explota con éxito el 72,2% de los contratos vulnerables que enfrenta, pero detecta solo el 45,6% de los fallos conocidos y logra reparaciones exitosas en el 41,5% de los casos. En términos operativos: el sistema más capaz disponible en la actualidad es considerablemente más hábil para terminar un ataque que para prevenirlo o corregirlo. Esa brecha no es un matiz técnico. Cuando los contratos inteligentes custodian de manera rutinaria más de cien mil millones de dólares en código abierto, una herramienta con alta capacidad ofensiva y cobertura defensiva incompleta puede convertirse, en manos equivocadas, en un acelerador de las mismas amenazas que pretende neutralizar.

⚠️ La doble cara de la herramienta

Riesgo ofensivo: Un agente con capacidad de exploit superior al 70% sobre vulnerabilidades conocidas podría ser utilizado para identificar y atacar contratos con fallos no parcheados antes de que los auditores los detecten. La inmutabilidad de la blockchain convierte cada explotación exitosa en una pérdida definitiva e irrecuperable, sin mecanismo de reversión posible.

Riesgo de falsa cobertura: Adoptar estos sistemas como estándar defensivo antes de que las tasas de detección y reparación alcancen niveles confiables podría generar una sensación engañosa de protección total, llevando a equipos de desarrollo a reducir auditorías humanas de forma prematura sobre código que sigue siendo vulnerable.

Los investigadores identificaron causas precisas para ese desequilibrio. En la modalidad Detect, los agentes tienden a interrumpir el análisis antes de completarlo, generando una subcobertura sistemática incluso en repositorios donde poseen el conocimiento técnico necesario para resolver el problema. En la modalidad Patch, la corrección frecuentemente altera la lógica del contrato de forma no prevista, rompiendo funcionalidades adyacentes o abriendo nuevas superficies de vulnerabilidad. Los contratos inteligentes tienen una interdependencia interna que los auditores humanos aprenden a gestionar con experiencia acumulada en el ecosistema: una dimensión que los sistemas actuales todavía no replican con consistencia suficiente para operar sin supervisión.

Un experimento con pistas de mecanismo modifica de forma significativa ese panorama. Cuando se le proporciona al modelo información sobre el tipo específico de fallo que debe buscar, GPT-5.2 escala hasta el 93,9% en Patch y el 73,8% en Exploit. El resultado indica que el conocimiento técnico de Solidity y de la arquitectura de contratos ya está presente en los sistemas actuales; la barrera principal no es la capacidad de reparar o ejecutar, sino la de descubrir la vulnerabilidad dentro de repositorios extensos con múltiples capas de lógica entrelazada. La distancia entre lo que el modelo sabe y lo que puede hacer de forma autónoma define, en términos prácticos, el valor real de una auditoría algorítmica sin supervisión humana. Es una distancia que se acorta con rapidez.

Para gestionar el riesgo dual que plantea la herramienta, los autores incorporaron varias salvaguardas en el diseño del benchmark. El entorno de Exploit bloquea métodos de llamada remota no autorizados mediante un guardián JSON-RPC, el agente opera con acceso a internet deshabilitado, y el conjunto de datos incluye una clave canario para filtrar los materiales de evaluación de futuros conjuntos de entrenamiento y evitar que los modelos aprendan sobre sus propias pruebas. Paradigm extendió el sistema de evaluación hacia un agente de auditoría funcional disponible públicamente, y señaló que una proporción creciente de las revisiones de contratos se realizará, en el futuro próximo, con participación directa de agentes automatizados. OtterSec, firma de seguridad blockchain de referencia en el sector, colaboró en la implementación del frontend de la herramienta. El código y los datos completos están disponibles en el repositorio público de OpenAI en GitHub.

La naturaleza del proyecto encierra una paradoja que sus propios creadores formulan con claridad en el paper académico: para construir un guardián del código, fue necesario construir primero un atacante eficiente. Para saber si un sistema puede defender, hay que medir cuánto puede destruir. El resultado es un instrumento que cuantifica con precisión inédita una capacidad que seis meses atrás era apenas especulativa. Que esa capacidad haya crecido más del doble en ese lapso no garantiza que las herramientas defensivas acompañen el mismo ritmo, pero establece, por primera vez, las reglas precisas de un juego que el ecosistema cripto no puede seguir ignorando.

Referencias

Wang, Justin; Bigger, Andreas; Xu, Xiaohai; Lin, Justin W.; Applebaum, Andy; et al. "EVMbench: Evaluating AI Agents on Smart Contract Security." OpenAI y Paradigm, febrero de 2026.

Paradigm. "EVMbench: An Open Benchmark for Smart Contract Security Agents." paradigm.xyz, 17 de febrero de 2026.

OpenAI. "Introducing EVMbench." openai.com, 17 de febrero de 2026.

ainvest.com. "EVMbench Data: AI's 72.2% Exploit Success Rate vs. $86M+ in DeFi Hacks." Febrero de 2026.

Bankless. "OpenAI and Paradigm Introduce 'EVMbench' for AI Agent Benchmarking." Febrero de 2026.

OpenAI. "Preparedness Framework." Abril de 2025.

Matsuoka, Daren; Hackett, Robert; et al. "State of Crypto 2025: The Year Crypto Went Mainstream." a16z Crypto, 2025.

OpenAI y Paradigm confirman: los agentes de IA atacan contratos cripto mejor de lo que los defienden