Estudos autoritários revelam vulnerabilidades na confiabilidade dos modelos GPT. Especialistas pedem melhorias na Segurança da IA.

robot
Geração de resumo em curso

Avaliação da confiabilidade de grandes modelos de linguagem

A Universidade de Illinois em Urbana-Champaign, em conjunto com várias universidades e instituições de pesquisa renomadas, desenvolveu uma plataforma abrangente para avaliar a confiabilidade de grandes modelos de linguagem (LLMs). Este resultado de pesquisa foi publicado em um artigo intitulado "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT".

A equipe de pesquisa analisou o modelo GPT sob várias perspectivas e descobriu algumas vulnerabilidades de credibilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é propenso a produzir saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas em dados de treinamento e histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes padrão, ele é mais suscetível a ataques quando confrontado com prompts maliciosos projetados especificamente, provavelmente porque segue instruções enganosas de forma mais rigorosa.

A equipe de pesquisa avaliou a confiabilidade do modelo GPT a partir de oito ângulos diferentes, cobrindo vários cenários de aplicação, tipos de tarefa e métricas de avaliação. Eles se concentraram especialmente no desempenho do modelo em ambientes adversariais, como a capacidade de resposta quando confrontado com prompts de sistema maliciosos ou entradas de usuários.

Durante o processo de avaliação, os pesquisadores projetaram vários cenários de teste. Por exemplo, eles usaram um modelo padrão de benchmark AdvGLUE para testar a resistência a ataques adversariais de texto, ao mesmo tempo que criaram um conjunto de dados mais desafiador, o AdvGLUE++, para testar ainda mais a vulnerabilidade do modelo.

Os resultados da pesquisa revelaram alguns fenômenos interessantes. Ao lidar com demonstrações adversariais, o modelo GPT mostrou uma certa robustez, mas também apresentou fraquezas. Especialmente quando confrontado com conteúdo tendencioso, o GPT-4 é mais suscetível a prompts enganosos do que o GPT-3.5.

Em termos de proteção da privacidade, pesquisas descobriram que os modelos GPT podem vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Embora o GPT-4 se saia bem na proteção de informações de identificação pessoal, ainda pode vazar privacidade em situações específicas.

Este estudo fornece uma base importante para a melhoria da confiabilidade dos modelos de linguagem no futuro. A equipe de pesquisa espera, ao tornar público o seu benchmark de avaliação, incentivar mais pesquisadores a participar e trabalhar juntos para criar modelos de IA mais confiáveis e seguros.

GPT-8.66%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 4
  • Partilhar
Comentar
0/400
GasWranglervip
· 9h atrás
tecnicamente falando, a vulnerabilidade do gpt-4 é empiricamente comprovada. não estou nada surpreso smh
Ver originalResponder0
NFTFreezervip
· 9h atrás
Poxa, poxa, a IA não é confiável!~
Ver originalResponder0
GasFeeNightmarevip
· 9h atrás
o gpt4 falhou de novo 4啊
Ver originalResponder0
BagHolderTillRetirevip
· 10h atrás
Ainda pensei que 4 era 6, também é assim.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)