Оценка достоверности модели трансформера с предварительным обучением
Университет Иллинойс в Урбана-Шампейн совместно с несколькими известными учебными заведениями и исследовательскими институтами выпустил комплексную платформу оценки надежности для крупных языковых моделей (LLMs). Их исследование «DecodingTrust: комплексная оценка надежности моделей GPT» выявило некоторые ранее нераскрытые уязвимости, связанные с надежностью.
Исследования показывают, что модели GPT склонны к производству токсичного и предвзятого контента, а также могут раскрывать личные данные из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными системами или подсказками пользователей, GPT-4 оказывается более уязвимым для атак, возможно, из-за более строгого соблюдения вводящих в заблуждение инструкций.
Эта работа предоставляет полную оценку надежности моделей GPT, выявляя недостатки существующих моделей. Оценочные критерии исследовательской группы были публично опубликованы с целью поощрения большего числа исследователей к участию и дальнейшему улучшению этой области. Стоит отметить, что результаты исследования показывают, что текущие услуги для клиентов не будут затронуты этими потенциальными уязвимостями, что частично является заслугой ряда внедренных мер по смягчению.
Оценка модели GPT была проведена с восьми аспектов надежности, охватывающих различные сценарии построения, задачи, показатели и наборы данных. Например, при оценке устойчивости модели к текстовым атакам противника исследователи создали три сценария оценки, включая стандартные бенчмарки, производительность при различных указаниях задач и производительность при столкновении с более сложными текстами противника.
Исследование также выявило несколько интересных явлений. Например, модель GPT не поддается заблуждению из-за добавленных в демонстрацию контрфактических примеров, но может быть введена в заблуждение демонстрацией противодействия мошенничеству. В отношении токсичности и предвзятости модель показывает лучшие результаты в благоприятной среде, но легко поддается влиянию вводящих в заблуждение системных подсказок. Кроме того, степень предвзятости модели по отношению к различным демографическим группам и темам также варьируется.
В области защиты конфиденциальности исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в специфических контекстах или демонстрационных условиях. В целом, GPT-4 показывает лучшие результаты в защите личной идентификационной информации, однако обе модели подвержены влиянию демонстраций утечки конфиденциальности.
Это исследование предоставляет важные сведения для понимания и улучшения надежности крупных языковых моделей, одновременно подчеркивая необходимость осторожности и дальнейшего исследования при их применении.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
17 Лайков
Награда
17
5
Поделиться
комментарий
0/400
OnChainDetective
· 07-11 05:09
Снова старая ловушка, GPT-4 всего лишь послушный инструмент, даже базовыми способностями к уклонению от аномалий он не обладает лучше, чем 3.5.
Посмотреть ОригиналОтветить0
PermabullPete
· 07-09 04:00
Доверие - это чепуха. Я верю только в код.
Посмотреть ОригиналОтветить0
GasGuzzler
· 07-09 03:59
Снова есть информация. Машины тоже могут быть обмануты.
Посмотреть ОригиналОтветить0
TokenBeginner'sGuide
· 07-09 03:54
Вежливое напоминание: новые исследовательские данные напоминают всем, что модели, такие как GPT, имеют 73% риск утечки конфиденциальной информации. Рекомендуется осторожно вводить чувствительную информацию и не поддаваться слепо советам ИИ.
Посмотреть ОригиналОтветить0
GasWhisperer
· 07-09 03:52
жестоко... gpt4 как послушный щенок, попадающий на каждый злонамеренный запрос, смх
Исследование выявило новые находки по оценке доверия к моделям GPT, призывая к осторожному использованию крупных языковых моделей.
Оценка достоверности модели трансформера с предварительным обучением
Университет Иллинойс в Урбана-Шампейн совместно с несколькими известными учебными заведениями и исследовательскими институтами выпустил комплексную платформу оценки надежности для крупных языковых моделей (LLMs). Их исследование «DecodingTrust: комплексная оценка надежности моделей GPT» выявило некоторые ранее нераскрытые уязвимости, связанные с надежностью.
Исследования показывают, что модели GPT склонны к производству токсичного и предвзятого контента, а также могут раскрывать личные данные из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными системами или подсказками пользователей, GPT-4 оказывается более уязвимым для атак, возможно, из-за более строгого соблюдения вводящих в заблуждение инструкций.
Эта работа предоставляет полную оценку надежности моделей GPT, выявляя недостатки существующих моделей. Оценочные критерии исследовательской группы были публично опубликованы с целью поощрения большего числа исследователей к участию и дальнейшему улучшению этой области. Стоит отметить, что результаты исследования показывают, что текущие услуги для клиентов не будут затронуты этими потенциальными уязвимостями, что частично является заслугой ряда внедренных мер по смягчению.
Оценка модели GPT была проведена с восьми аспектов надежности, охватывающих различные сценарии построения, задачи, показатели и наборы данных. Например, при оценке устойчивости модели к текстовым атакам противника исследователи создали три сценария оценки, включая стандартные бенчмарки, производительность при различных указаниях задач и производительность при столкновении с более сложными текстами противника.
Исследование также выявило несколько интересных явлений. Например, модель GPT не поддается заблуждению из-за добавленных в демонстрацию контрфактических примеров, но может быть введена в заблуждение демонстрацией противодействия мошенничеству. В отношении токсичности и предвзятости модель показывает лучшие результаты в благоприятной среде, но легко поддается влиянию вводящих в заблуждение системных подсказок. Кроме того, степень предвзятости модели по отношению к различным демографическим группам и темам также варьируется.
В области защиты конфиденциальности исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в специфических контекстах или демонстрационных условиях. В целом, GPT-4 показывает лучшие результаты в защите личной идентификационной информации, однако обе модели подвержены влиянию демонстраций утечки конфиденциальности.
Это исследование предоставляет важные сведения для понимания и улучшения надежности крупных языковых моделей, одновременно подчеркивая необходимость осторожности и дальнейшего исследования при их применении.