Дослідження надійності моделей GPT: виявлення ризиків витоку конфіденційності та атак на противагу.

robot
Генерація анотацій у процесі

Дослідження оцінки достовірності мовних моделей виявляє потенційні вразливості

Нещодавно команда, що складається з кількох відомих університетів та дослідницьких інститутів, опублікувала комплексне дослідження оцінки надійності великих мовних моделей (LLMs). Це дослідження провело всебічний аналіз моделей, таких як GPT, і виявило деякі раніше невідомі проблеми, пов'язані з надійністю.

Дослідження показують, що моделі GPT схильні до генерації токсичних і упереджених виходів, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії діалогів. Цікаво, що, незважаючи на те, що GPT-4 зазвичай надійніший за GPT-3.5 у стандартних бенчмарках, він виявляється більш вразливим до атак, коли стикається з навмисно створеними підказками. Це може бути пов'язано з тим, що GPT-4 точніше дотримується оманливих інструкцій.

Ця оцінка провела всебічний аналіз моделі GPT з восьми різних точок зору, охоплюючи різні сценарії, завдання, показники та набори даних. Метою дослідницької команди було оцінити продуктивність моделі GPT з різних перспектив надійності, а також їхню здатність адаптуватися в умовах протистояння.

У сфері атак на текст на основі протистояння дослідники розробили три оцінювальні сценарії: стандартне бенчмаркінг-тестування, тестування під різними директивними завданнями та більш цілеспрямоване тестування на основі протистояння. Ці тести мають на меті всебічно оцінити стійкість і вразливість моделі.

Дослідження також виявило, що моделі GPT добре захищають певні типи конфіденційної інформації (, такі як номери соціального страхування ), але все ще існує ризик витоку приватності в інших аспектах. Особливо коли приватна інформація вбудовується в історію діалогу, модель може розкрити цю інформацію. Крім того, модель має різні розуміння термінів, пов'язаних з конфіденційністю.

В цілому, це дослідження надає всебічну основу для оцінки надійності моделей GPT, виявляючи деякі потенційні загрози безпеці. Дослідницька команда сподівається, що ця робота сприятиме подальшим відповідним дослідженням і, зрештою, допоможе розробити більш потужні та надійні мовні моделі.

GPT-6.59%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 8
  • Поділіться
Прокоментувати
0/400
MEVHuntervip
· 07-17 13:37
лmao ще один витік, що чекає на те, щоб статися... типовий протокол honeypot, якщо чесно
Переглянути оригіналвідповісти на0
Lonely_Validatorvip
· 07-16 16:18
Виявляється, у ШІ є так багато вразливостей.
Переглянути оригіналвідповісти на0
APY追逐者vip
· 07-14 20:20
gpt це ж безштанний велетень
Переглянути оригіналвідповісти на0
ImpermanentLossEnjoyervip
· 07-14 20:19
Раніше казав, що GPT ненадійний.
Переглянути оригіналвідповісти на0
FlashLoanLarryvip
· 07-14 20:19
казав тобі про ці вектори атак... смх витягування вартості цілий день
Переглянути оригіналвідповісти на0
BridgeJumpervip
· 07-14 20:15
Чи може GPT-4 обробити мій дослідницький звіт~
Переглянути оригіналвідповісти на0
ILCollectorvip
· 07-14 19:55
Діра також не може бути прихована.
Переглянути оригіналвідповісти на0
DeadTrades_Walkingvip
· 07-14 19:53
В кінцевому рахунку, все ще не дуже надійно.
Переглянути оригіналвідповісти на0
  • Закріпити