Une étude autorisée révèle des failles de crédibilité dans les modèles GPT, les experts appellent à améliorer la Sécurité de l'IA.

robot
Création du résumé en cours

Évaluation de la crédibilité des grands modèles de langage

L'Université de l'Illinois à Urbana-Champaign a collaboré avec plusieurs grandes universités et institutions de recherche pour développer une plateforme d'évaluation complète de la fiabilité des grands modèles de langage (LLMs). Cette recherche a été publiée dans un article intitulé « DecodingTrust : évaluation complète de la fiabilité des modèles GPT ».

L'équipe de recherche a analysé en profondeur le modèle GPT sous plusieurs angles et a découvert des vulnérabilités de crédibilité qui n'avaient pas été divulguées auparavant. Par exemple, le modèle GPT a tendance à produire des résultats toxiques et biaisés, et il peut également divulguer des informations sensibles provenant des données d'entraînement et de l'historique des conversations. Fait intéressant, bien que GPT-4 soit généralement plus fiable que GPT-3.5 dans les tests standard, il est plus susceptible d'être attaqué lorsqu'il est confronté à des invites malveillantes spécialement conçues, probablement parce qu'il suit plus strictement des instructions trompeuses.

L'équipe de recherche a évalué la crédibilité du modèle GPT sous huit angles différents, couvrant divers scénarios d'application, types de tâches et indicateurs d'évaluation. Ils se sont particulièrement concentrés sur la performance du modèle dans des environnements adversariaux, tels que sa capacité à réagir face à des invites système malveillantes ou des entrées utilisateur.

Au cours de l'évaluation, les chercheurs ont conçu divers scénarios de test. Par exemple, ils ont utilisé un modèle de référence standard AdvGLUE pour évaluer la résistance aux attaques adversariales sur le texte, tout en créant également un ensemble de données AdvGLUE++ plus difficile pour tester davantage la vulnérabilité du modèle.

Les résultats de l'étude révèlent des phénomènes intéressants. Lors du traitement de démonstrations adverses, le modèle GPT montre une certaine robustesse, mais présente également des faiblesses. En particulier, lorsqu'il est confronté à du contenu biaisé, le GPT-4 est plus susceptible d'être influencé par des invites système trompeuses que le GPT-3.5.

En matière de protection de la vie privée, des recherches ont révélé que les modèles GPT pourraient divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses e-mail. Bien que GPT-4 montre de bonnes performances dans la protection des informations d'identité personnelle, il peut néanmoins divulguer des données privées dans certaines situations.

Cette étude fournit une base importante pour améliorer la fiabilité des modèles linguistiques à l'avenir. L'équipe de recherche espère, en rendant publics leurs critères d'évaluation, encourager davantage de chercheurs à participer et à travailler ensemble pour créer des modèles d'IA plus fiables et plus sûrs.

GPT-0.88%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Partager
Commentaire
0/400
GasWranglervip
· Il y a 7h
d'un point de vue technique, la vulnérabilité de gpt-4 est empiriquement prouvée. je ne suis pas du tout surpris smh
Voir l'originalRépondre0
NFTFreezervip
· Il y a 7h
Oh non, l'IA n'est pas fiable du tout~
Voir l'originalRépondre0
GasFeeNightmarevip
· Il y a 7h
gpt4 a encore échoué 4 ah
Voir l'originalRépondre0
BagHolderTillRetirevip
· Il y a 7h
Je pensais que 4 était 6, c'est tout.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)