OpenAI a publié un benchmark pour évaluer la capacité des agents IA à pirater des contrats intelligents - ForkLog : cryptomonnaies, IA, singularité, avenir

Froklog · 2026-02-19T12:33:01+00:00

OpenAI et Paradigm ont présenté EVMbench, un benchmark pour évaluer la capacité des agents IA à identifier, corriger et exploiter les vulnérabilités dans les contrats intelligents. L'outil intègre divers scénarios d'attaque et évalue les modèles d'IA en détection, correction et exploitation, mettant en évidence les défis rencontrés pour maintenir la fonctionnalité du contrat tout en garantissant la sécurité.

Froklog

2026-02-19 12:33:01

Création du résumé en cours

# OpenAI a publié un benchmark pour évaluer la capacité des agents IA à pirater des contrats intelligents

La société OpenAI, en collaboration avec Paradigm, a présenté EVMbench — un benchmark pour évaluer la capacité des agents IA à détecter, corriger et exploiter les vulnérabilités des contrats intelligents.

L’outil est basé sur 120 vulnérabilités sélectionnées parmi 40 audits. La majorité des exemples proviennent de plateformes d’analyse de code open source. Il inclut également plusieurs scénarios d’attaque issus de la vérification de sécurité de Tempo — un réseau de premier niveau développé par Stripe et Paradigm pour des paiements à haute performance et à faible coût en stablecoins.

L’intégration avec Tempo a permis d’ajouter au benchmark des contrats intelligents de paiement — un segment où l’utilisation active de « stablecoins » et d’agents IA est attendue.

« Les contrats intelligents protègent des actifs cryptographiques d’une valeur de plus de 100 milliards de dollars. À mesure que les agents IA s’améliorent dans la lecture, l’écriture et l’exécution de code, il devient de plus en plus important de mesurer leurs capacités dans des conditions économiques réelles et d’encourager l’utilisation de l’intelligence artificielle à des fins de sécurité — pour l’audit et le renforcement des protocoles déjà déployés », indique l’annonce.

Pour créer un environnement de test, OpenAI a adapté des exploits et scripts existants, en s’assurant de leur applicabilité pratique.

EVMbench évalue trois modes de capacités :

Detect — détection des vulnérabilités ;
Patch — correction des problèmes ;
Exploit — utilisation pour voler des fonds.

Performance des modèles IA

OpenAI a testé des modèles avancés dans ces trois modes. Dans la catégorie Exploit, le modèle GPT-5.3-Codex a atteint 72,2 %, GPT-5 — 31,9 %. Cependant, les résultats en détection et correction des vulnérabilités étaient plus modestes — de nombreux problèmes restent difficiles à identifier et à corriger.

En mode Detect, les agents IA s’arrêtent parfois après avoir trouvé une vulnérabilité au lieu de réaliser un audit complet. En mode Patch, il leur est encore difficile de corriger des problèmes non évidents tout en conservant la pleine fonctionnalité du contrat.

« EVMbench ne reflète pas toute la complexité de la sécurité réelle des contrats intelligents. Bien qu’ils soient réalistes et critiques, de nombreux protocoles subissent des audits plus stricts et peuvent être plus difficiles à exploiter », ont souligné chez OpenAI.

Rappelons qu’en novembre 2025, Microsoft a présenté un environnement de test pour agents IA et a identifié des vulnérabilités propres aux assistants numériques modernes.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime