OpenAI đã phát hành một bộ chuẩn để đánh giá khả năng của các tác nhân AI trong việc xâm nhập hợp đồng thông minh - ForkLog: tiền điện tử, AI, siêu trí tuệ, tương lai
# OpenAI đã phát hành bộ chuẩn đánh giá khả năng của các AI-đại lý trong việc xâm nhập hợp đồng thông minh
Công ty OpenAI phối hợp cùng Paradigm giới thiệu EVMbench — bộ chuẩn để đánh giá khả năng của các AI-đại lý trong việc phát hiện, sửa chữa và khai thác các lỗ hổng trong hợp đồng thông minh.
Công cụ này dựa trên 120 lỗ hổng đã được chọn lọc từ 40 cuộc kiểm tra an ninh. Phần lớn các ví dụ lấy từ các nền tảng phân tích mã nguồn mở. Nó cũng bao gồm một số kịch bản tấn công từ kiểm tra an ninh chuỗi khối Tempo — mạng lưới cấp một chuyên biệt do Stripe và Paradigm phát triển để thanh toán nhanh, chi phí thấp bằng stablecoin.
Việc tích hợp với Tempo đã cho phép thêm vào bộ chuẩn các hợp đồng thông minh thanh toán — phân khúc dự kiến sẽ có sự ứng dụng mạnh mẽ của “đồng stablecoin” và AI-đại lý.
“Hợp đồng thông minh bảo vệ các tài sản kỹ thuật số trị giá hơn 100 tỷ USD. Khi các AI-đại lý ngày càng tinh vi trong việc đọc, viết và thực thi mã, việc đo lường khả năng của chúng trong điều kiện kinh tế thực tế trở nên ngày càng quan trọng và khuyến khích sử dụng trí tuệ nhân tạo để bảo vệ — như kiểm tra và củng cố các giao thức đã triển khai,” — theo thông báo.
Để tạo môi trường thử nghiệm, OpenAI đã điều chỉnh các khai thác và script hiện có, trước đó đã xác minh tính thực tiễn của chúng.
EVMbench đánh giá khả năng trong ba chế độ:
Detect — phát hiện lỗ hổng;
Patch — khắc phục vấn đề;
Exploit — khai thác để trộm cắp tài sản.
Hiệu quả của các mô hình AI
OpenAI đã thử nghiệm các mô hình tiên tiến trong cả ba chế độ. Trong lĩnh vực Exploit, mô hình GPT-5.3-Codex đạt 72,2%, GPT-5 đạt 31,9%. Trong khi đó, các chỉ số phát hiện và sửa chữa lỗ hổng lại thấp hơn — nhiều vấn đề vẫn còn khó phát hiện và khắc phục.
Trong chế độ Detect, các AI-đại lý đôi khi dừng lại sau khi phát hiện một lỗ hổng thay vì thực hiện kiểm tra toàn diện. Ở chế độ Patch, chúng vẫn gặp khó khăn trong việc vá các vấn đề không rõ ràng để duy trì đầy đủ chức năng của hợp đồng.
“EVMbench không phản ánh hết độ phức tạp của an ninh thực tế của hợp đồng thông minh. Mặc dù chúng mang tính thực tế và quan trọng, nhiều giao thức còn trải qua các cuộc kiểm tra nghiêm ngặt hơn và có thể khó khai thác hơn,” — các đại diện của OpenAI nhấn mạnh.
Nhắc lại, vào tháng 11 năm 2025, Microsoft đã giới thiệu môi trường thử nghiệm AI-đại lý và phát hiện các lỗ hổng tồn tại trong các trợ lý kỹ thuật số hiện đại.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
OpenAI đã phát hành một bộ chuẩn để đánh giá khả năng của các tác nhân AI trong việc xâm nhập hợp đồng thông minh - ForkLog: tiền điện tử, AI, siêu trí tuệ, tương lai
Công ty OpenAI phối hợp cùng Paradigm giới thiệu EVMbench — bộ chuẩn để đánh giá khả năng của các AI-đại lý trong việc phát hiện, sửa chữa và khai thác các lỗ hổng trong hợp đồng thông minh.
Công cụ này dựa trên 120 lỗ hổng đã được chọn lọc từ 40 cuộc kiểm tra an ninh. Phần lớn các ví dụ lấy từ các nền tảng phân tích mã nguồn mở. Nó cũng bao gồm một số kịch bản tấn công từ kiểm tra an ninh chuỗi khối Tempo — mạng lưới cấp một chuyên biệt do Stripe và Paradigm phát triển để thanh toán nhanh, chi phí thấp bằng stablecoin.
Việc tích hợp với Tempo đã cho phép thêm vào bộ chuẩn các hợp đồng thông minh thanh toán — phân khúc dự kiến sẽ có sự ứng dụng mạnh mẽ của “đồng stablecoin” và AI-đại lý.
Để tạo môi trường thử nghiệm, OpenAI đã điều chỉnh các khai thác và script hiện có, trước đó đã xác minh tính thực tiễn của chúng.
EVMbench đánh giá khả năng trong ba chế độ:
Hiệu quả của các mô hình AI
OpenAI đã thử nghiệm các mô hình tiên tiến trong cả ba chế độ. Trong lĩnh vực Exploit, mô hình GPT-5.3-Codex đạt 72,2%, GPT-5 đạt 31,9%. Trong khi đó, các chỉ số phát hiện và sửa chữa lỗ hổng lại thấp hơn — nhiều vấn đề vẫn còn khó phát hiện và khắc phục.
Trong chế độ Detect, các AI-đại lý đôi khi dừng lại sau khi phát hiện một lỗ hổng thay vì thực hiện kiểm tra toàn diện. Ở chế độ Patch, chúng vẫn gặp khó khăn trong việc vá các vấn đề không rõ ràng để duy trì đầy đủ chức năng của hợp đồng.
Nhắc lại, vào tháng 11 năm 2025, Microsoft đã giới thiệu môi trường thử nghiệm AI-đại lý và phát hiện các lỗ hổng tồn tại trong các trợ lý kỹ thuật số hiện đại.