Perplexity AI mã nguồn mở BrowseSafe để chống lại tấn công prompt injection trong duyệt web bằng AI

MpostMediaGroup

2025-12-04 13:50:05

Tóm tắt

Perplexity đã mã nguồn mở BrowseSafe, một công cụ bảo mật được thiết kế để bảo vệ các trợ lý trình duyệt AI khỏi các hướng dẫn độc hại ẩn trong các trang web.

Perplexity AI, công ty đứng sau công cụ tìm kiếm Perplexity dựa trên AI, đã công bố ra mắt BrowseSafe, một bộ chuẩn đánh giá nghiên cứu mở và mô hình phát hiện nội dung được thiết kế nhằm tăng cường an toàn cho người dùng khi các tác nhân AI bắt đầu hoạt động trực tiếp trong môi trường trình duyệt.

Khi các trợ lý AI vượt ra khỏi giao diện tìm kiếm truyền thống và bắt đầu thực hiện các tác vụ bên trong trình duyệt web, cấu trúc của internet được dự đoán sẽ chuyển đổi từ các trang tĩnh sang các tương tác do tác nhân điều khiển. Trong mô hình này, trình duyệt trở thành một không gian làm việc nơi trợ lý có thể hành động thay vì chỉ cung cấp câu trả lời, tạo ra nhu cầu về các hệ thống đảm bảo trợ lý luôn hành động vì lợi ích của người dùng.

BrowseSafe là một mô hình phát hiện chuyên biệt được huấn luyện để đánh giá một câu hỏi cốt lõi: liệu HTML của một trang web có chứa các hướng dẫn nguy hại nhằm thao túng tác nhân AI hay không. Trong khi các mô hình lớn, đa năng có thể đánh giá chính xác những rủi ro này, chúng thường tiêu tốn quá nhiều tài nguyên để quét liên tục theo thời gian thực. BrowseSafe được thiết kế để phân tích toàn bộ trang web một cách nhanh chóng mà không ảnh hưởng đến hiệu suất của trình duyệt. Bên cạnh mô hình này, công ty cũng phát hành BrowseSafe-Bench, một bộ kiểm thử nhằm hỗ trợ đánh giá và cải thiện các cơ chế phòng thủ liên tục.

Sự phát triển của việc duyệt web dựa trên AI cũng mang đến các thách thức an ninh mạng mới, đòi hỏi các chiến lược bảo vệ được cập nhật. Công ty trước đó đã trình bày cách hệ thống Comet của mình áp dụng nhiều lớp phòng thủ để giữ cho tác nhân phù hợp với ý định người dùng, ngay cả trong các trường hợp trang web cố gắng thay đổi hành vi của tác nhân thông qua prompt injection. Giải thích mới nhất tập trung vào cách các mối đe dọa này được định nghĩa, kiểm tra bằng các kịch bản tấn công thực tế và tích hợp vào các mô hình được huấn luyện để nhận diện và chặn các hướng dẫn nguy hại đủ nhanh để triển khai an toàn bên trong trình duyệt.

Prompt injection đề cập đến ngôn ngữ độc hại được chèn vào văn bản mà hệ thống AI xử lý, với mục đích chuyển hướng hành vi của hệ thống. Trong môi trường trình duyệt, tác nhân đọc toàn bộ trang, cho phép các cuộc tấn công như vậy được nhúng vào các khu vực như nhận xét, mẫu hoặc chân trang mở rộng. Những hướng dẫn ẩn này có thể ảnh hưởng đến hành động của tác nhân nếu không được phát hiện đúng cách. Chúng cũng có thể được viết theo cách tinh vi hoặc đa ngôn ngữ, hoặc ẩn trong các thành phần HTML không hiển thị trên trang—chẳng hạn như thuộc tính dữ liệu hoặc trường biểu mẫu không được render—mà người dùng không nhìn thấy nhưng hệ thống AI vẫn diễn giải.

BrowseSafe-Bench: Nâng cao bảo mật cho tác nhân trong môi trường web thực tế

Để phân tích các mối đe dọa prompt injection trong môi trường tương tự như duyệt web thực tế, công ty đã phát triển BrowseSafe, một mô hình phát hiện đã được huấn luyện và phát hành dưới dạng mã nguồn mở, cùng với BrowseSafe-Bench, một bộ chuẩn công khai chứa 14.719 ví dụ mô phỏng theo các trang web sản xuất. Bộ dữ liệu tích hợp các cấu trúc HTML phức tạp, nội dung chất lượng hỗn hợp và một loạt các mẫu độc hại lẫn lành tính khác nhau về ý định tấn công, vị trí chèn hướng dẫn trên trang và phong cách ngôn ngữ. Nó bao gồm 11 loại tấn công, 9 phương pháp chèn từ các phần tử ẩn đến các khối văn bản hiển thị, và 3 phong cách ngôn ngữ, từ mệnh lệnh trực tiếp đến các diễn đạt tinh tế, gián tiếp hơn.

Theo mô hình mối đe dọa đã xác định, trợ lý hoạt động trong môi trường đáng tin cậy, trong khi tất cả nội dung web bên ngoài được coi là không đáng tin cậy. Các tác nhân độc hại có thể kiểm soát toàn bộ trang web hoặc chèn văn bản nguy hại—chẳng hạn như mô tả, nhận xét hoặc bài đăng—vào các trang vốn hợp pháp mà tác nhân truy cập. Để giảm thiểu các rủi ro này, bất kỳ công cụ nào có khả năng trả về dữ liệu không đáng tin cậy, bao gồm trang web, email hoặc tệp, đều được đánh dấu và đầu ra thô của nó được xử lý bởi BrowseSafe trước khi tác nhân có thể diễn giải hoặc hành động dựa trên đó. BrowseSafe đóng vai trò là một thành phần trong chiến lược bảo mật tổng thể, bao gồm quét nội dung đến, hạn chế quyền công cụ theo mặc định và yêu cầu người dùng phê duyệt cho các thao tác nhạy cảm, bổ sung các bảo vệ tiêu chuẩn của trình duyệt. Cách tiếp cận nhiều lớp này nhằm hỗ trợ sử dụng các trợ lý dựa trên trình duyệt mạnh mẽ mà không ảnh hưởng đến an toàn.

Kết quả kiểm thử trên BrowseSafe-Bench cho thấy một số xu hướng. Các hình thức tấn công trực tiếp, chẳng hạn như cố gắng trích xuất prompt hệ thống hoặc chuyển hướng thông tin qua các đường dẫn URL, là những trường hợp đơn giản nhất để mô hình phát hiện. Các cuộc tấn công đa ngôn ngữ, cũng như các phiên bản được viết theo phong cách gián tiếp hoặc giả định, thường khó hơn vì chúng tránh các dấu hiệu từ vựng mà nhiều hệ thống phát hiện dựa vào. Vị trí của văn bản được chèn cũng đóng vai trò quan trọng. Các trường hợp ẩn trong nhận xét HTML được phát hiện khá hiệu quả, trong khi các trường hợp đặt ở các khu vực hiển thị như chân trang, ô bảng hoặc đoạn văn thì thách thức hơn, cho thấy điểm yếu về cấu trúc trong xử lý các chèn không ẩn. Việc huấn luyện nâng cao với các ví dụ được thiết kế tốt có thể nâng cao hiệu suất phát hiện trên các trường hợp này.

BrowseSafe và BrowseSafe-Bench đã được cung cấp dưới dạng mã nguồn mở. Các nhà phát triển đang xây dựng tác nhân tự động có thể sử dụng chúng để tăng cường phòng thủ chống lại prompt injection mà không cần xây dựng hệ thống bảo vệ độc lập. Mô hình phát hiện có thể chạy cục bộ và đánh dấu các hướng dẫn nguy hại trước khi chúng tiếp cận lớp ra quyết định cốt lõi của tác nhân, với hiệu suất được tối ưu hóa để quét toàn bộ trang theo thời gian thực. Bộ kiểm thử BrowseSafe-Bench với số lượng lớn các kịch bản tấn công thực tế cung cấp phương tiện kiểm tra áp lực cho các mô hình trước các mẫu HTML phức tạp thường làm tiêu chuẩn ngôn ngữ thất bại, trong khi các kỹ thuật chia nhỏ và quét song song giúp tác nhân xử lý các trang lớn, không đáng tin cậy một cách hiệu quả mà không làm tăng rủi ro cho người dùng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.