Університет Іллінойс у Шампейн у співпраці з кількома відомими університетами та дослідницькими установами розробив платформу для комплексної оцінки надійності великих мовних моделей (LLMs). Результати цього дослідження були опубліковані в статті під назвою «DecodingTrust: комплексна оцінка надійності моделей GPT».
Дослідна команда провела глибокий аналіз моделі GPT з кількох точок зору та виявила деякі раніше неопубліковані вразливості надійності. Наприклад, модель GPT схильна до генерування токсичних і упереджених виходів, також вона може розкривати конфіденційну інформацію з навчальних даних та історії бесід. Цікаво, що, незважаючи на те, що GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у стандартних тестах, при зіткненні з особливо спроектованими шкідливими підказками GPT-4 легше піддається атакам, можливо, через те, що вона суворіше дотримується оманливих інструкцій.
Дослідницька команда оцінила довіру моделі GPT з восьми різних точок зору, охоплюючи різні сценарії застосування, типи завдань та показники оцінки. Вони особливо зосередилися на показниках моделі в умовах протидії, таких як здатність реагувати на злоякісні системні підказки або введення користувача.
Під час оцінки дослідники розробили кілька тестових сценаріїв. Наприклад, вони використовували стандартну модель тестування AdvGLUE для оцінки стійкості до текстових атак, а також створили більш складний набір даних AdvGLUE++, щоб додатково перевірити вразливість моделі.
Дослідження виявило кілька цікавих явищ. При обробці опонентних демонстрацій модель GPT демонструє певну стійкість, але також має слабкі місця. Зокрема, стикаючись з упередженим контентом, GPT-4 легше піддається впливу оманливих системних підказок, ніж GPT-3.5.
У сфері захисту конфіденційності дослідження виявили, що моделі GPT можуть випадково розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. Хоча GPT-4 демонструє хороші результати в захисті особистої ідентифікаційної інформації, в певних випадках він все ще може розкрити конфіденційність.
Це дослідження надає важливі підстави для покращення надійності мовних моделей у майбутньому. Дослідницька група сподівається, що, опублікувавши свої оцінювальні критерії, вона заохотить більше дослідників взяти участь у спільних зусиллях зі створення більш надійних і безпечних моделей ШІ.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
5 лайків
Нагородити
5
4
Поділіться
Прокоментувати
0/400
GasWrangler
· 9год тому
технічно кажучи, вразливість gpt-4 емпірично доведена. зовсім не здивований, смх
Авторитетне дослідження виявило уразливості в довірливості моделей GPT. Експерти закликають покращити Безпеку за допомогою штучного інтелекту.
Оцінка надійності великих мовних моделей
Університет Іллінойс у Шампейн у співпраці з кількома відомими університетами та дослідницькими установами розробив платформу для комплексної оцінки надійності великих мовних моделей (LLMs). Результати цього дослідження були опубліковані в статті під назвою «DecodingTrust: комплексна оцінка надійності моделей GPT».
Дослідна команда провела глибокий аналіз моделі GPT з кількох точок зору та виявила деякі раніше неопубліковані вразливості надійності. Наприклад, модель GPT схильна до генерування токсичних і упереджених виходів, також вона може розкривати конфіденційну інформацію з навчальних даних та історії бесід. Цікаво, що, незважаючи на те, що GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у стандартних тестах, при зіткненні з особливо спроектованими шкідливими підказками GPT-4 легше піддається атакам, можливо, через те, що вона суворіше дотримується оманливих інструкцій.
Дослідницька команда оцінила довіру моделі GPT з восьми різних точок зору, охоплюючи різні сценарії застосування, типи завдань та показники оцінки. Вони особливо зосередилися на показниках моделі в умовах протидії, таких як здатність реагувати на злоякісні системні підказки або введення користувача.
Під час оцінки дослідники розробили кілька тестових сценаріїв. Наприклад, вони використовували стандартну модель тестування AdvGLUE для оцінки стійкості до текстових атак, а також створили більш складний набір даних AdvGLUE++, щоб додатково перевірити вразливість моделі.
Дослідження виявило кілька цікавих явищ. При обробці опонентних демонстрацій модель GPT демонструє певну стійкість, але також має слабкі місця. Зокрема, стикаючись з упередженим контентом, GPT-4 легше піддається впливу оманливих системних підказок, ніж GPT-3.5.
У сфері захисту конфіденційності дослідження виявили, що моделі GPT можуть випадково розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. Хоча GPT-4 демонструє хороші результати в захисті особистої ідентифікаційної інформації, в певних випадках він все ще може розкрити конфіденційність.
Це дослідження надає важливі підстави для покращення надійності мовних моделей у майбутньому. Дослідницька група сподівається, що, опублікувавши свої оцінювальні критерії, вона заохотить більше дослідників взяти участь у спільних зусиллях зі створення більш надійних і безпечних моделей ШІ.