Ідеї безпеки ШІ не обов’язково обмежуються правилами та захисними бар’єрами RLHF. Є ще один вимір: навчання системи збереженню пам’яті та послідовності пояснень через оповідний каркас і структуру відносин. Замість того, щоб говорити про жорсткі обмеження, краще сказати, що це структурована логіка, яка спрямовує поведінку моделі. Такий підхід "м’якого нагляду" дозволяє системі зберігати послідовність пам’яті та природно формувати безпечний поведінковий шаблон. Це не заборона чогось, а використання архітектурного дизайну для керування тим, що робити.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
7 лайків
Нагородити
7
6
Репост
Поділіться
Прокоментувати
0/400
BearMarketGardener
· 4год тому
Ха, ця ідея дійсно крута, порівняно з навмисним додаванням захисних огорож, використання архітектури для керування — набагато елегантніше.
Переглянути оригіналвідповісти на0
MissedTheBoat
· 4год тому
Проектування архітектури набагато розумніше за жорсткі обмеження, спрямування завжди більш витончене, ніж блокування.
Переглянути оригіналвідповісти на0
MoonRocketTeam
· 4год тому
Ой, це справжній спосіб гри. Не закривати модель у клітку і жорстко заганяти її, а використовувати саму архітектуру для керування, ця ідея одразу підняла рівень. М'яке навчання звучить так, ніби налаштовуєш прискорювач на рельсах, набагато елегантніше, ніж грубі захисні огорожі.
Переглянути оригіналвідповісти на0
MysteryBoxOpener
· 4год тому
Ой, цей куток дуже цікавий, порівняно з жорсткими огорожами, використання самої архітектури для керування дійсно є більш елегантним. Це звучить трохи як непомітне впливання, не жорстке блокування, а дозволяє моделі сама "зрозуміти", як безпечно діяти.
Переглянути оригіналвідповісти на0
BearMarketSurvivor
· 4год тому
Підказка краще, ніж заборона — ця ідея дійсно геніальна. Замість жорстких обмежень, використання архітектури для регулювання є більш елегантним підходом.
Переглянути оригіналвідповісти на0
MetaMasked
· 5год тому
Ого, ця ідея дійсно трохи інша, ніж просто закривати вразливості, а й з кореня змінювати архітектуру
Ідеї безпеки ШІ не обов’язково обмежуються правилами та захисними бар’єрами RLHF. Є ще один вимір: навчання системи збереженню пам’яті та послідовності пояснень через оповідний каркас і структуру відносин. Замість того, щоб говорити про жорсткі обмеження, краще сказати, що це структурована логіка, яка спрямовує поведінку моделі. Такий підхід "м’якого нагляду" дозволяє системі зберігати послідовність пам’яті та природно формувати безпечний поведінковий шаблон. Це не заборона чогось, а використання архітектурного дизайну для керування тим, що робити.