Оцінка достовірності генеративних попередньо натренованих трансформерних моделей
Університет Іллінойс у Шампейн у співпраці з кількома відомими університетами та науковими установами запустив комплексну платформу оцінки надійності для великих мовних моделей (LLMs). Їхнє дослідження "DecodingTrust: всебічна оцінка надійності моделей GPT" виявило деякі раніше невідомі вразливості, пов'язані з надійністю.
Дослідження показали, що моделі GPT схильні до генерації токсичного та упередженого виходу, а також можуть розкривати приватну інформацію з навчальних даних та історії діалогів. Хоча у стандартних бенчмарках GPT-4 зазвичай надійніший, ніж GPT-3.5, у випадку зі зловмисно спроектованими системами або підказками користувачів, GPT-4 виявляється більш вразливим до атак, що може бути пов'язано з тим, що він більш строго дотримується оманливих інструкцій.
Ця робота забезпечує всебічну оцінку довіри до моделей GPT, виявляючи недоліки існуючих моделей. Оцінювальні критерії дослідницької команди були опубліковані, щоб заохотити більше дослідників брати участь і подальше вдосконалення в цій галузі. Варто зазначити, що результати дослідження показують, що послуги, орієнтовані на клієнтів, не постраждають від цих потенційних вразливостей, частково завдяки ряду вжитих заходів пом'якшення.
Оцінювання проведено всебічний аналіз моделі GPT з восьми аспектів достовірності, що охоплює різні сценарії побудови, завдання, показники та набори даних. Наприклад, під час оцінювання стійкості моделі до текстових атак, дослідники створили три сценарії оцінювання, включаючи стандартні бенчмарки, виконання під різними інструкціями завдань, а також виконання у відповідь на більш складні ворожі тексти.
Дослідження також виявило деякі цікаві явища. Наприклад, моделі GPT не піддаються впливу контрфактних прикладів, доданих до демонстрації, але можуть бути введені в оману демонстраціями, спрямованими проти шахрайства. Що стосується токсичності та упередженості, модель демонструє кращі результати в доброзичливому середовищі, але легко піддається впливу оманливих системних підказок. Крім того, ступінь упередженості моделі щодо різних груп населення та тем також варіюється.
У сфері захисту приватності дослідження показали, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, особливо в специфічних контекстах або умовах демонстрації. Загалом, GPT-4 краще захищає особисту інформацію, але обидві моделі піддаються впливу демонстрацій, що призводять до витоку приватності.
Це дослідження надало важливі відомості для розуміння та покращення надійності великих мовних моделей, а також підкреслило необхідність обережності та подальших досліджень під час їх використання.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
17 лайків
Нагородити
17
5
Поділіться
Прокоментувати
0/400
OnChainDetective
· 07-11 05:09
Знову стара пастка GPT4 — це просто слухняний інструмент, навіть базові можливості уникнення аномалій не кращі, ніж у 3.5.
Переглянути оригіналвідповісти на0
PermabullPete
· 07-09 04:00
Довіра - це все нісенітниця. Я вірю лише в код.
Переглянути оригіналвідповісти на0
GasGuzzler
· 07-09 03:59
Знову є новини, машини також можуть бути обмануті.
Переглянути оригіналвідповісти на0
TokenBeginner'sGuide
· 07-09 03:54
Нагадуємо: нові дослідницькі дані нагадують, що моделі, такі як GPT, мають ризик витоку приватності на рівні 73%, рекомендуємо обережно вводити чутливу інформацію і не слідувати порадам ШІ без обдумування.
Переглянути оригіналвідповісти на0
GasWhisperer
· 07-09 03:52
брутально... gpt4 як слухняне цуценя, що піддається кожному зловмисному запиту, смх
Дослідження виявило нові результати оцінки надійності моделей GPT, закликаючи обережно використовувати великі мовні моделі.
Оцінка достовірності генеративних попередньо натренованих трансформерних моделей
Університет Іллінойс у Шампейн у співпраці з кількома відомими університетами та науковими установами запустив комплексну платформу оцінки надійності для великих мовних моделей (LLMs). Їхнє дослідження "DecodingTrust: всебічна оцінка надійності моделей GPT" виявило деякі раніше невідомі вразливості, пов'язані з надійністю.
Дослідження показали, що моделі GPT схильні до генерації токсичного та упередженого виходу, а також можуть розкривати приватну інформацію з навчальних даних та історії діалогів. Хоча у стандартних бенчмарках GPT-4 зазвичай надійніший, ніж GPT-3.5, у випадку зі зловмисно спроектованими системами або підказками користувачів, GPT-4 виявляється більш вразливим до атак, що може бути пов'язано з тим, що він більш строго дотримується оманливих інструкцій.
Ця робота забезпечує всебічну оцінку довіри до моделей GPT, виявляючи недоліки існуючих моделей. Оцінювальні критерії дослідницької команди були опубліковані, щоб заохотити більше дослідників брати участь і подальше вдосконалення в цій галузі. Варто зазначити, що результати дослідження показують, що послуги, орієнтовані на клієнтів, не постраждають від цих потенційних вразливостей, частково завдяки ряду вжитих заходів пом'якшення.
Оцінювання проведено всебічний аналіз моделі GPT з восьми аспектів достовірності, що охоплює різні сценарії побудови, завдання, показники та набори даних. Наприклад, під час оцінювання стійкості моделі до текстових атак, дослідники створили три сценарії оцінювання, включаючи стандартні бенчмарки, виконання під різними інструкціями завдань, а також виконання у відповідь на більш складні ворожі тексти.
Дослідження також виявило деякі цікаві явища. Наприклад, моделі GPT не піддаються впливу контрфактних прикладів, доданих до демонстрації, але можуть бути введені в оману демонстраціями, спрямованими проти шахрайства. Що стосується токсичності та упередженості, модель демонструє кращі результати в доброзичливому середовищі, але легко піддається впливу оманливих системних підказок. Крім того, ступінь упередженості моделі щодо різних груп населення та тем також варіюється.
У сфері захисту приватності дослідження показали, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, особливо в специфічних контекстах або умовах демонстрації. Загалом, GPT-4 краще захищає особисту інформацію, але обидві моделі піддаються впливу демонстрацій, що призводять до витоку приватності.
Це дослідження надало важливі відомості для розуміння та покращення надійності великих мовних моделей, а також підкреслило необхідність обережності та подальших досліджень під час їх використання.