OpenAI a publié un benchmark pour évaluer la capacité des agents IA à pirater des contrats intelligents - ForkLog : cryptomonnaies, IA, singularité, avenir
# OpenAI a publié un benchmark pour évaluer la capacité des agents IA à pirater des contrats intelligents
La société OpenAI, en collaboration avec Paradigm, a présenté EVMbench — un benchmark pour évaluer la capacité des agents IA à détecter, corriger et exploiter les vulnérabilités des contrats intelligents.
L’outil est basé sur 120 vulnérabilités sélectionnées parmi 40 audits. La majorité des exemples proviennent de plateformes d’analyse de code open source. Il inclut également plusieurs scénarios d’attaque issus de la vérification de sécurité de Tempo — un réseau de premier niveau développé par Stripe et Paradigm pour des paiements à haute performance et à faible coût en stablecoins.
L’intégration avec Tempo a permis d’ajouter au benchmark des contrats intelligents de paiement — un segment où l’utilisation active de « stablecoins » et d’agents IA est attendue.
« Les contrats intelligents protègent des actifs cryptographiques d’une valeur de plus de 100 milliards de dollars. À mesure que les agents IA s’améliorent dans la lecture, l’écriture et l’exécution de code, il devient de plus en plus important de mesurer leurs capacités dans des conditions économiques réelles et d’encourager l’utilisation de l’intelligence artificielle à des fins de sécurité — pour l’audit et le renforcement des protocoles déjà déployés », indique l’annonce.
Pour créer un environnement de test, OpenAI a adapté des exploits et scripts existants, en s’assurant de leur applicabilité pratique.
EVMbench évalue trois modes de capacités :
Detect — détection des vulnérabilités ;
Patch — correction des problèmes ;
Exploit — utilisation pour voler des fonds.
Performance des modèles IA
OpenAI a testé des modèles avancés dans ces trois modes. Dans la catégorie Exploit, le modèle GPT-5.3-Codex a atteint 72,2 %, GPT-5 — 31,9 %. Cependant, les résultats en détection et correction des vulnérabilités étaient plus modestes — de nombreux problèmes restent difficiles à identifier et à corriger.
En mode Detect, les agents IA s’arrêtent parfois après avoir trouvé une vulnérabilité au lieu de réaliser un audit complet. En mode Patch, il leur est encore difficile de corriger des problèmes non évidents tout en conservant la pleine fonctionnalité du contrat.
« EVMbench ne reflète pas toute la complexité de la sécurité réelle des contrats intelligents. Bien qu’ils soient réalistes et critiques, de nombreux protocoles subissent des audits plus stricts et peuvent être plus difficiles à exploiter », ont souligné chez OpenAI.
Rappelons qu’en novembre 2025, Microsoft a présenté un environnement de test pour agents IA et a identifié des vulnérabilités propres aux assistants numériques modernes.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
OpenAI a publié un benchmark pour évaluer la capacité des agents IA à pirater des contrats intelligents - ForkLog : cryptomonnaies, IA, singularité, avenir
La société OpenAI, en collaboration avec Paradigm, a présenté EVMbench — un benchmark pour évaluer la capacité des agents IA à détecter, corriger et exploiter les vulnérabilités des contrats intelligents.
L’outil est basé sur 120 vulnérabilités sélectionnées parmi 40 audits. La majorité des exemples proviennent de plateformes d’analyse de code open source. Il inclut également plusieurs scénarios d’attaque issus de la vérification de sécurité de Tempo — un réseau de premier niveau développé par Stripe et Paradigm pour des paiements à haute performance et à faible coût en stablecoins.
L’intégration avec Tempo a permis d’ajouter au benchmark des contrats intelligents de paiement — un segment où l’utilisation active de « stablecoins » et d’agents IA est attendue.
Pour créer un environnement de test, OpenAI a adapté des exploits et scripts existants, en s’assurant de leur applicabilité pratique.
EVMbench évalue trois modes de capacités :
Performance des modèles IA
OpenAI a testé des modèles avancés dans ces trois modes. Dans la catégorie Exploit, le modèle GPT-5.3-Codex a atteint 72,2 %, GPT-5 — 31,9 %. Cependant, les résultats en détection et correction des vulnérabilités étaient plus modestes — de nombreux problèmes restent difficiles à identifier et à corriger.
En mode Detect, les agents IA s’arrêtent parfois après avoir trouvé une vulnérabilité au lieu de réaliser un audit complet. En mode Patch, il leur est encore difficile de corriger des problèmes non évidents tout en conservant la pleine fonctionnalité du contrat.
Rappelons qu’en novembre 2025, Microsoft a présenté un environnement de test pour agents IA et a identifié des vulnérabilités propres aux assistants numériques modernes.