# OpenAIはAIエージェントがスマートコントラクトをハッキングする能力を評価するためのベンチマークを公開OpenAIはParadigmと共同で、EVMbenchを発表しました。これは、AIエージェントがスマートコントラクトの脆弱性を発見、修正、悪用する能力を評価するためのベンチマークです。このツールは、40件の監査から選ばれた120の脆弱性に基づいています。多くの例はオープンソースのコード分析プラットフォームから採用されています。また、StripeとParadigmが開発した高性能かつ低コストのステーブルコイン決済用の第1層ネットワーク、Tempoのセキュリティ検査からの攻撃シナリオも含まれています。Tempoとの連携により、ベンチマークには決済スマートコントラクトも追加されました。ここでは、「ステーブルコイン」やAIエージェントの積極的な活用が期待されています。> > 「スマートコントラクトは1000億ドル以上の暗号資産を保護しています。AIエージェントがコードの読み書きや実行を向上させるにつれ、実際の経済環境での能力を測定し、監査や既存プロトコルの強化といった防御目的での人工知能の利用を促進することがますます重要になっています」とアナウンスで述べられています。> > > OpenAIは、既存のエクスプロイトやスクリプトを適用し、その実用性を事前に確認した上で、テスト環境を構築しました。EVMbenchは、次の3つのモードで能力を評価します。* Detect — 脆弱性の発見* Patch — 問題の修正* Exploit — 資金盗用への悪用## AIモデルの性能OpenAIは、最先端のモデルをこれら3つのモードすべてでテストしました。Exploitモードでは、GPT-5.3-Codexは72.2%、GPT-5は31.9%の成功率を記録しました。一方、脆弱性の検出と修正の成績は控えめで、多くの問題は依然として見つけにくく、修正も難しい状況です。Detectモードでは、AIエージェントは一つの脆弱性を見つけた後に完全な監査を行わずに停止することがあります。Patchモードでは、完全な機能性を維持しながら目立たない問題を修正するのが難しいとされています。> > 「EVMbenchは、スマートコントラクトの実際のセキュリティの複雑さを完全には反映していません。これらは現実的で重要ですが、多くのプロトコルはより厳格な監査を受けており、悪用が難しい場合もあります」とOpenAIは強調しています。> > > なお、2025年11月にMicrosoftはAIエージェントのテスト環境を発表し、現代のデジタルアシスタントに潜む脆弱性を明らかにしました。
OpenAIは、AIエージェントがスマートコントラクトをハッキングする能力を評価するためのベンチマークを公開しました - ForkLog:暗号通貨、AI、シンギュラリティ、未来
OpenAIはParadigmと共同で、EVMbenchを発表しました。これは、AIエージェントがスマートコントラクトの脆弱性を発見、修正、悪用する能力を評価するためのベンチマークです。
このツールは、40件の監査から選ばれた120の脆弱性に基づいています。多くの例はオープンソースのコード分析プラットフォームから採用されています。また、StripeとParadigmが開発した高性能かつ低コストのステーブルコイン決済用の第1層ネットワーク、Tempoのセキュリティ検査からの攻撃シナリオも含まれています。
Tempoとの連携により、ベンチマークには決済スマートコントラクトも追加されました。ここでは、「ステーブルコイン」やAIエージェントの積極的な活用が期待されています。
OpenAIは、既存のエクスプロイトやスクリプトを適用し、その実用性を事前に確認した上で、テスト環境を構築しました。
EVMbenchは、次の3つのモードで能力を評価します。
AIモデルの性能
OpenAIは、最先端のモデルをこれら3つのモードすべてでテストしました。Exploitモードでは、GPT-5.3-Codexは72.2%、GPT-5は31.9%の成功率を記録しました。一方、脆弱性の検出と修正の成績は控えめで、多くの問題は依然として見つけにくく、修正も難しい状況です。
Detectモードでは、AIエージェントは一つの脆弱性を見つけた後に完全な監査を行わずに停止することがあります。Patchモードでは、完全な機能性を維持しながら目立たない問題を修正するのが難しいとされています。
なお、2025年11月にMicrosoftはAIエージェントのテスト環境を発表し、現代のデジタルアシスタントに潜む脆弱性を明らかにしました。