Ý tưởng về an toàn AI không nhất thiết chỉ dựa trên quy tắc và hàng rào phòng vệ của RLHF. Còn có một chiều khác: thông qua khung kể chuyện và cấu trúc mối quan hệ để dạy hệ thống duy trì trí nhớ và tính nhất quán trong giải thích. Thay vì gọi là những ràng buộc cứng nhắc, có thể nói là sử dụng cấu trúc logic có tổ chức để hướng dẫn hành vi của mô hình. Phương pháp "giám sát mềm" này giúp hệ thống duy trì tính liên tục của trí nhớ và tự nhiên hình thành các mô hình hành vi an toàn. Không phải cấm đoán cái gì, mà là sử dụng thiết kế kiến trúc để hướng dẫn cái gì.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Đăng lại
  • Retweed
Bình luận
0/400
BearMarketGardenervip
· 6giờ trước
Haha, cách suy nghĩ này thực sự tuyệt vời, so với việc cố gắng thêm hàng rào bảo vệ một cách cứng nhắc, dẫn dắt bằng kiến trúc còn tinh tế hơn nhiều.
Xem bản gốcTrả lời0
MissedTheBoatvip
· 6giờ trước
Thiết kế kiến trúc thông minh hơn nhiều so với các ràng buộc cứng nhắc, việc hướng dẫn dễ dàng hơn nhiều so với việc tắc nghẽn.
Xem bản gốcTrả lời0
MoonRocketTeamvip
· 6giờ trước
Ối chà, đây mới là cách chơi thực sự. Không phải nhốt mô hình vào lồng để cố gắng ép buộc, mà là dùng chính kiến trúc để hướng dẫn, cách tư duy này trực tiếp nâng cấp cấp độ. Giám sát mềm nghe có vẻ như là tinh chỉnh bộ đẩy trên quỹ đạo, tinh tế hơn nhiều so với hàng rào bảo vệ thô sơ.
Xem bản gốcTrả lời0
MysteryBoxOpenervip
· 6giờ trước
Ồ, góc độ này thú vị thật đấy, so với hàng rào bảo vệ cứng nhắc, việc sử dụng chính kiến trúc để hướng dẫn thực sự tinh tế hơn. Nghe có vẻ như là cảm giác âm thầm thấm nhuần, không phải là cố định cứng nhắc, mà là để mô hình tự "nghĩ rõ" cách hành động an toàn.
Xem bản gốcTrả lời0
BearMarketSurvivorvip
· 6giờ trước
Không bằng hướng dẫn, suy nghĩ này thực sự tuyệt vời. So với những giới hạn cứng nhắc, việc sử dụng kiến trúc để quy chuẩn lại càng tinh tế hơn
Xem bản gốcTrả lời0
MetaMaskedvip
· 6giờ trước
Chết rồi, ý tưởng này thực sự khác biệt đấy, không chỉ đơn thuần vá lỗ hổng mà còn xây dựng kiến trúc từ gốc rễ
Xem bản gốcTrả lời0
  • Ghim