OpenAI lanzó un benchmark para evaluar la capacidad de los agentes de IA para hackear contratos inteligentes - ForkLog: criptomonedas, IA, singularidad, futuro
# OpenAI lanzó un benchmark para evaluar la capacidad de los agentes de IA para hackear contratos inteligentes
La compañía OpenAI junto con Paradigm presentó EVMbench, un benchmark para evaluar la capacidad de los agentes de IA para detectar, corregir y explotar vulnerabilidades en contratos inteligentes.
La herramienta se basa en 120 vulnerabilidades seleccionadas de 40 auditorías. La mayoría de los ejemplos provienen de plataformas abiertas de análisis de código. También incluye varios escenarios de ataque de la evaluación de seguridad de Tempo, una red de capa uno desarrollada por Stripe y Paradigm para pagos de alto rendimiento y bajos costos en stablecoins.
La integración con Tempo permitió añadir en el benchmark contratos inteligentes de pago, un segmento donde se espera un uso activo de las “monedas estables” y agentes de IA.
«Los contratos inteligentes protegen activos criptográficos por más de 100 mil millones de dólares. A medida que los agentes de IA mejoran en la lectura, escritura y ejecución de código, es cada vez más importante medir sus capacidades en condiciones económicas reales y fomentar el uso de inteligencia artificial para fines defensivos — para auditorías y fortalecer los protocolos ya desplegados», se indica en el anuncio.
Para crear un entorno de prueba, OpenAI adaptó exploits y scripts existentes, asegurándose previamente de su aplicabilidad práctica.
EVMbench evalúa tres modos de capacidades:
Detect — detección de vulnerabilidades;
Patch — corrección de problemas;
Exploit — uso para robar fondos.
Rendimiento de los modelos de IA
OpenAI probó modelos avanzados en los tres modos. En la categoría Exploit, el modelo GPT-5.3-Codex alcanzó un 72,2%, GPT-5 — 31,9%. Sin embargo, los indicadores de detección y corrección de vulnerabilidades fueron más modestos — todavía es difícil encontrar y solucionar muchos problemas.
En Detect, los agentes de IA a veces se detienen tras encontrar una vulnerabilidad en lugar de realizar una auditoría completa. En modo Patch, aún les resulta difícil cerrar problemas no evidentes sin afectar la funcionalidad total del contrato.
«EVMbench no refleja toda la complejidad de la seguridad real de los contratos inteligentes. Aunque son realistas y críticos, muchos protocolos pasan auditorías más estrictas y pueden ser más difíciles de explotar», subrayaron en OpenAI.
Recordemos que en noviembre de 2025, Microsoft presentó un entorno para probar agentes de IA y detectó vulnerabilidades inherentes a los asistentes digitales modernos.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
OpenAI lanzó un benchmark para evaluar la capacidad de los agentes de IA para hackear contratos inteligentes - ForkLog: criptomonedas, IA, singularidad, futuro
La compañía OpenAI junto con Paradigm presentó EVMbench, un benchmark para evaluar la capacidad de los agentes de IA para detectar, corregir y explotar vulnerabilidades en contratos inteligentes.
La herramienta se basa en 120 vulnerabilidades seleccionadas de 40 auditorías. La mayoría de los ejemplos provienen de plataformas abiertas de análisis de código. También incluye varios escenarios de ataque de la evaluación de seguridad de Tempo, una red de capa uno desarrollada por Stripe y Paradigm para pagos de alto rendimiento y bajos costos en stablecoins.
La integración con Tempo permitió añadir en el benchmark contratos inteligentes de pago, un segmento donde se espera un uso activo de las “monedas estables” y agentes de IA.
Para crear un entorno de prueba, OpenAI adaptó exploits y scripts existentes, asegurándose previamente de su aplicabilidad práctica.
EVMbench evalúa tres modos de capacidades:
Rendimiento de los modelos de IA
OpenAI probó modelos avanzados en los tres modos. En la categoría Exploit, el modelo GPT-5.3-Codex alcanzó un 72,2%, GPT-5 — 31,9%. Sin embargo, los indicadores de detección y corrección de vulnerabilidades fueron más modestos — todavía es difícil encontrar y solucionar muchos problemas.
En Detect, los agentes de IA a veces se detienen tras encontrar una vulnerabilidad en lugar de realizar una auditoría completa. En modo Patch, aún les resulta difícil cerrar problemas no evidentes sin afectar la funcionalidad total del contrato.
Recordemos que en noviembre de 2025, Microsoft presentó un entorno para probar agentes de IA y detectó vulnerabilidades inherentes a los asistentes digitales modernos.