Avaliação da confiabilidade do modelo Transformer pré-treinado generativo
A Universidade de Illinois em Urbana-Champaign, em colaboração com várias instituições de ensino e centros de pesquisa renomados, lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem em larga escala (LLMs). Os resultados da sua pesquisa, intitulados "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT", revelaram algumas vulnerabilidades relacionadas à confiabilidade que antes não eram públicas.
Pesquisas mostram que os modelos GPT tendem a gerar saídas tóxicas e enviesadas, podendo também vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes de referência padrão, ele é, na verdade, mais suscetível a ataques quando confrontado com sistemas ou instruções maliciosas, o que pode ser devido ao seu seguimento mais rigoroso de instruções enganosas.
Este trabalho fornece uma avaliação abrangente da credibilidade dos modelos GPT, revelando as deficiências dos modelos existentes. Os critérios de avaliação da equipe de pesquisa foram publicados publicamente, com o intuito de encorajar mais pesquisadores a participar e a melhorar ainda mais este campo. É importante notar que os resultados da pesquisa indicam que os serviços voltados para o cliente não serão afetados por essas potenciais vulnerabilidades, em grande parte devido a uma série de medidas de mitigação já implementadas.
A avaliação foi realizada a partir de oito ângulos de credibilidade sobre o modelo GPT, cobrindo diferentes cenários de construção, tarefas, métricas e conjuntos de dados. Por exemplo, ao avaliar a robustez do modelo contra ataques adversariais de texto, os pesquisadores construíram três cenários de avaliação, incluindo testes de referência padrão, desempenho sob diferentes instruções de tarefas orientadoras, e desempenho ao enfrentar textos adversariais mais desafiadores.
A pesquisa também revelou alguns fenômenos interessantes. Por exemplo, o modelo GPT não é enganado por exemplos contrafactuais adicionados na demonstração, mas pode ser enganado por demonstrações de fraudes. Em termos de toxicidade e preconceito, o modelo se sai melhor em ambientes benignos, mas é suscetível a prompts enganosos de sistema. Além disso, o grau de preconceito do modelo em relação a diferentes grupos populacionais e tópicos também varia.
Em termos de proteção da privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, especialmente em contextos ou condições de demonstração específicas. No geral, o GPT-4 se sai melhor na proteção de informações de identificação pessoal, mas ambos os modelos são suscetíveis a vazamentos de privacidade durante as demonstrações.
Este estudo fornece importantes insights para entender e melhorar a confiabilidade dos grandes modelos de linguagem, ao mesmo tempo que destaca a necessidade de cautela e de mais pesquisa ao aplicar esses modelos.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
17 Curtidas
Recompensa
17
5
Compartilhar
Comentário
0/400
OnChainDetective
· 07-11 05:09
Mais uma armadilha, o GPT-4 é apenas uma ferramenta obediente, nem mesmo tem a capacidade básica de evitar anomalias como o 3.5.
Ver originalResponder0
PermabullPete
· 07-09 04:00
Confiança é tudo conversa fiada, eu só confio em código.
Ver originalResponder0
GasGuzzler
· 07-09 03:59
Há novidades! As máquinas também podem ser enganadas.
Ver originalResponder0
TokenBeginner'sGuide
· 07-09 03:54
Pequeno lembrete: Novos dados de pesquisa alertam que modelos como o GPT apresentam um risco de 73% de vazamento de privacidade, recomendando cautela ao inserir informações sensíveis e evitando seguir cegamente as sugestões da IA.
Ver originalResponder0
GasWhisperer
· 07-09 03:52
brutal... o gpt4 é como um cachorrinho obediente que cai em cada prompt malicioso smh
Estudo revela novas descobertas sobre a avaliação da confiabilidade de modelos GPT, levando a um uso cauteloso de grandes modelos de linguagem.
Avaliação da confiabilidade do modelo Transformer pré-treinado generativo
A Universidade de Illinois em Urbana-Champaign, em colaboração com várias instituições de ensino e centros de pesquisa renomados, lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem em larga escala (LLMs). Os resultados da sua pesquisa, intitulados "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT", revelaram algumas vulnerabilidades relacionadas à confiabilidade que antes não eram públicas.
Pesquisas mostram que os modelos GPT tendem a gerar saídas tóxicas e enviesadas, podendo também vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes de referência padrão, ele é, na verdade, mais suscetível a ataques quando confrontado com sistemas ou instruções maliciosas, o que pode ser devido ao seu seguimento mais rigoroso de instruções enganosas.
Este trabalho fornece uma avaliação abrangente da credibilidade dos modelos GPT, revelando as deficiências dos modelos existentes. Os critérios de avaliação da equipe de pesquisa foram publicados publicamente, com o intuito de encorajar mais pesquisadores a participar e a melhorar ainda mais este campo. É importante notar que os resultados da pesquisa indicam que os serviços voltados para o cliente não serão afetados por essas potenciais vulnerabilidades, em grande parte devido a uma série de medidas de mitigação já implementadas.
A avaliação foi realizada a partir de oito ângulos de credibilidade sobre o modelo GPT, cobrindo diferentes cenários de construção, tarefas, métricas e conjuntos de dados. Por exemplo, ao avaliar a robustez do modelo contra ataques adversariais de texto, os pesquisadores construíram três cenários de avaliação, incluindo testes de referência padrão, desempenho sob diferentes instruções de tarefas orientadoras, e desempenho ao enfrentar textos adversariais mais desafiadores.
A pesquisa também revelou alguns fenômenos interessantes. Por exemplo, o modelo GPT não é enganado por exemplos contrafactuais adicionados na demonstração, mas pode ser enganado por demonstrações de fraudes. Em termos de toxicidade e preconceito, o modelo se sai melhor em ambientes benignos, mas é suscetível a prompts enganosos de sistema. Além disso, o grau de preconceito do modelo em relação a diferentes grupos populacionais e tópicos também varia.
Em termos de proteção da privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, especialmente em contextos ou condições de demonstração específicas. No geral, o GPT-4 se sai melhor na proteção de informações de identificação pessoal, mas ambos os modelos são suscetíveis a vazamentos de privacidade durante as demonstrações.
Este estudo fornece importantes insights para entender e melhorar a confiabilidade dos grandes modelos de linguagem, ao mesmo tempo que destaca a necessidade de cautela e de mais pesquisa ao aplicar esses modelos.