# OpenAI випустила бенчмарк для оцінки здатності ІІ-агентів зламувати смарт-контракти
Компанія OpenAI спільно з Paradigm представила EVMbench — бенчмарк для оцінки здатності ІІ-агентів виявляти, виправляти та експлуатувати вразливості у смарт-контрактах.
Інструмент базується на 120 відібраних уразливостях із 40 аудитів. Більшість прикладів взято з відкритих платформ для аналізу коду. Також він включає кілька сценаріїв атак із перевірки безпеки блокчейну Tempo — спеціалізованої мережі першого рівня, розробленої Stripe і Paradigm для високопродуктивних і недорогих платежів у стейблкоінах.
Інтеграція з Tempo дозволила додати до бенчмарку платіжні смарт-контракти — сегмент, де очікується активне застосування «стабільних монет» і ІІ-агентів.
«Смарт-контракти захищають криптоактиви на суму понад $100 млрд. У міру вдосконалення ІІ-агентів у читанні, написанні та виконанні коду стає все важливішим вимірювати їхні можливості в реальних економічних умовах і заохочувати використання штучного інтелекту для захисту — для аудиту та зміцнення вже розгорнутих протоколів», — йдеться у анонсі.
Для створення тестового середовища OpenAI адаптувала існуючі експлойти та скрипти, попередньо переконавшись у їхній практичній застосовності.
EVMbench оцінює три режими можливостей:
Detect — виявлення уразливостей;
Patch — усунення проблем;
Exploit — використання для крадіжки коштів.
Результативність ІІ-моделей
OpenAI протестувала передові моделі у всіх трьох режимах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. При цьому показники виявлення та виправлення уразливостей були скромнішими — багато проблем досі важко знаходити та усувати.
У режимі Detect ІІ-агенти іноді зупиняються після виявлення однієї уразливості замість проведення повного аудиту. У режимі Patch їм поки важко закривати неочевидні проблеми так, щоб зберегти повну функціональність контракту.
«EVMbench не відображає всієї складності реальної безпеки смарт-контрактів. Хоча вони реалістичні й критичні, багато протоколів проходять більш строгий аудит і можуть бути складнішими для експлуатації», — підкреслили в OpenAI.
Нагадаємо, у листопаді 2025 року Microsoft представила середовище для тестування ІІ-агентів і виявила уразливості, властиві сучасним цифровим помічникам.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
OpenAI випустила бенчмарк для оцінки здатності ІІ-агентів зламувати смарт-контракти - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє
Компанія OpenAI спільно з Paradigm представила EVMbench — бенчмарк для оцінки здатності ІІ-агентів виявляти, виправляти та експлуатувати вразливості у смарт-контрактах.
Інструмент базується на 120 відібраних уразливостях із 40 аудитів. Більшість прикладів взято з відкритих платформ для аналізу коду. Також він включає кілька сценаріїв атак із перевірки безпеки блокчейну Tempo — спеціалізованої мережі першого рівня, розробленої Stripe і Paradigm для високопродуктивних і недорогих платежів у стейблкоінах.
Інтеграція з Tempo дозволила додати до бенчмарку платіжні смарт-контракти — сегмент, де очікується активне застосування «стабільних монет» і ІІ-агентів.
Для створення тестового середовища OpenAI адаптувала існуючі експлойти та скрипти, попередньо переконавшись у їхній практичній застосовності.
EVMbench оцінює три режими можливостей:
Результативність ІІ-моделей
OpenAI протестувала передові моделі у всіх трьох режимах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. При цьому показники виявлення та виправлення уразливостей були скромнішими — багато проблем досі важко знаходити та усувати.
У режимі Detect ІІ-агенти іноді зупиняються після виявлення однієї уразливості замість проведення повного аудиту. У режимі Patch їм поки важко закривати неочевидні проблеми так, щоб зберегти повну функціональність контракту.
Нагадаємо, у листопаді 2025 року Microsoft представила середовище для тестування ІІ-агентів і виявила уразливості, властиві сучасним цифровим помічникам.