OpenAI випустила бенчмарк для оцінки здатності ІІ-агентів зламувати смарт-контракти - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє

Froklog · 2026-02-19T12:33:01+00:00

OpenAI і Paradigm представили EVMbench — бенчмарк для оцінки здатності AI-агентів виявляти, виправляти та експлуатувати вразливості у смарт-контрактах. Інструмент інтегрує різні сценарії атак і оцінює моделі AI у виявленні, виправленні та експлуатації, підкреслюючи виклики, з якими стикаються при підтримці функціональності контракту та забезпеченні безпеки.

Froklog

2026-02-19 12:33:01

Генерація анотацій у процесі

# OpenAI випустила бенчмарк для оцінки здатності ІІ-агентів зламувати смарт-контракти

Компанія OpenAI спільно з Paradigm представила EVMbench — бенчмарк для оцінки здатності ІІ-агентів виявляти, виправляти та експлуатувати вразливості у смарт-контрактах.

Інструмент базується на 120 відібраних уразливостях із 40 аудитів. Більшість прикладів взято з відкритих платформ для аналізу коду. Також він включає кілька сценаріїв атак із перевірки безпеки блокчейну Tempo — спеціалізованої мережі першого рівня, розробленої Stripe і Paradigm для високопродуктивних і недорогих платежів у стейблкоінах.

Інтеграція з Tempo дозволила додати до бенчмарку платіжні смарт-контракти — сегмент, де очікується активне застосування «стабільних монет» і ІІ-агентів.

«Смарт-контракти захищають криптоактиви на суму понад $100 млрд. У міру вдосконалення ІІ-агентів у читанні, написанні та виконанні коду стає все важливішим вимірювати їхні можливості в реальних економічних умовах і заохочувати використання штучного інтелекту для захисту — для аудиту та зміцнення вже розгорнутих протоколів», — йдеться у анонсі.

Для створення тестового середовища OpenAI адаптувала існуючі експлойти та скрипти, попередньо переконавшись у їхній практичній застосовності.

EVMbench оцінює три режими можливостей:

Detect — виявлення уразливостей;
Patch — усунення проблем;
Exploit — використання для крадіжки коштів.

Результативність ІІ-моделей

OpenAI протестувала передові моделі у всіх трьох режимах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. При цьому показники виявлення та виправлення уразливостей були скромнішими — багато проблем досі важко знаходити та усувати.

У режимі Detect ІІ-агенти іноді зупиняються після виявлення однієї уразливості замість проведення повного аудиту. У режимі Patch їм поки важко закривати неочевидні проблеми так, щоб зберегти повну функціональність контракту.

«EVMbench не відображає всієї складності реальної безпеки смарт-контрактів. Хоча вони реалістичні й критичні, багато протоколів проходять більш строгий аудит і можуть бути складнішими для експлуатації», — підкреслили в OpenAI.

Нагадаємо, у листопаді 2025 року Microsoft представила середовище для тестування ІІ-агентів і виявила уразливості, властиві сучасним цифровим помічникам.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків