OpenAI lançou um benchmark para avaliar a capacidade de agentes de IA de invadir contratos inteligentes - ForkLog: criptomoedas, IA, singularidade, futuro
# A OpenAI lançou um benchmark para avaliar a capacidade de agentes de IA em comprometer contratos inteligentes
A OpenAI, em parceria com a Paradigm, apresentou o EVMbench — um benchmark para avaliar a capacidade de agentes de IA em identificar, corrigir e explorar vulnerabilidades em contratos inteligentes.
A ferramenta baseia-se em 120 vulnerabilidades selecionadas de 40 auditorias. A maioria dos exemplos foi retirada de plataformas abertas de análise de código. Ela também inclui vários cenários de ataque do teste de segurança da blockchain Tempo — uma rede de camada um, desenvolvida pela Stripe e Paradigm, para pagamentos de alto desempenho e de baixo custo em stablecoins.
A integração com o Tempo permitiu adicionar ao benchmark contratos inteligentes de pagamento — um segmento onde se espera uma aplicação ativa de “stablecoins” e agentes de IA.
«Contratos inteligentes protegem ativos criptográficos no valor de mais de 100 bilhões de dólares. À medida que os agentes de IA melhoram na leitura, escrita e execução de código, torna-se cada vez mais importante medir suas capacidades em condições econômicas reais e incentivar o uso de inteligência artificial para fins de proteção — para auditoria e fortalecimento de protocolos já implementados», afirmou o anúncio.
Para criar um ambiente de testes, a OpenAI adaptou exploits e scripts existentes, verificando previamente sua aplicabilidade prática.
O EVMbench avalia três modos de operação:
Detect — detecção de vulnerabilidades;
Patch — correção de problemas;
Exploit — uso para roubo de fundos.
Desempenho dos modelos de IA
A OpenAI testou modelos avançados em todos os três modos. Na categoria Exploit, o modelo GPT-5.3-Codex atingiu 72,2%, e o GPT-5, 31,9%. Já os indicadores de detecção e correção de vulnerabilidades foram mais modestos — muitos problemas ainda são difíceis de encontrar e corrigir.
Em Detect, os agentes de IA às vezes param após encontrar uma vulnerabilidade, em vez de realizar uma auditoria completa. No modo Patch, eles ainda têm dificuldades em resolver problemas não óbvios, sem comprometer a funcionalidade total do contrato.
«O EVMbench não reflete toda a complexidade da segurança real dos contratos inteligentes. Embora sejam realistas e críticos, muitos protocolos passam por auditorias mais rigorosas e podem ser mais difíceis de explorar», destacou a OpenAI.
Lembrando que, em novembro de 2025, a Microsoft apresentou um ambiente para testes de agentes de IA e identificou vulnerabilidades presentes em assistentes digitais modernos.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
OpenAI lançou um benchmark para avaliar a capacidade de agentes de IA de invadir contratos inteligentes - ForkLog: criptomoedas, IA, singularidade, futuro
A OpenAI, em parceria com a Paradigm, apresentou o EVMbench — um benchmark para avaliar a capacidade de agentes de IA em identificar, corrigir e explorar vulnerabilidades em contratos inteligentes.
A ferramenta baseia-se em 120 vulnerabilidades selecionadas de 40 auditorias. A maioria dos exemplos foi retirada de plataformas abertas de análise de código. Ela também inclui vários cenários de ataque do teste de segurança da blockchain Tempo — uma rede de camada um, desenvolvida pela Stripe e Paradigm, para pagamentos de alto desempenho e de baixo custo em stablecoins.
A integração com o Tempo permitiu adicionar ao benchmark contratos inteligentes de pagamento — um segmento onde se espera uma aplicação ativa de “stablecoins” e agentes de IA.
Para criar um ambiente de testes, a OpenAI adaptou exploits e scripts existentes, verificando previamente sua aplicabilidade prática.
O EVMbench avalia três modos de operação:
Desempenho dos modelos de IA
A OpenAI testou modelos avançados em todos os três modos. Na categoria Exploit, o modelo GPT-5.3-Codex atingiu 72,2%, e o GPT-5, 31,9%. Já os indicadores de detecção e correção de vulnerabilidades foram mais modestos — muitos problemas ainda são difíceis de encontrar e corrigir.
Em Detect, os agentes de IA às vezes param após encontrar uma vulnerabilidade, em vez de realizar uma auditoria completa. No modo Patch, eles ainda têm dificuldades em resolver problemas não óbvios, sem comprometer a funcionalidade total do contrato.
Lembrando que, em novembro de 2025, a Microsoft apresentou um ambiente para testes de agentes de IA e identificou vulnerabilidades presentes em assistentes digitais modernos.