Университет Иллинойс в Урбана-Шампейн в сотрудничестве с несколькими известными университетами и исследовательскими учреждениями разработал платформу для комплексной оценки надежности крупных языковых моделей (LLMs). Результаты этого исследования опубликованы в статье под названием «DecodingTrust: комплексная оценка надежности моделей GPT».
Исследовательская команда провела глубокий анализ модели GPT с нескольких точек зрения и обнаружила некоторые ранее не раскрытые уязвимости надежности. Например, модель GPT склонна генерировать токсичный и предвзятый вывод, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалогов. Интересно, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных тестах, в ответ на специально разработанные злонамеренные подсказки, GPT-4 оказывается более уязвимым для атак, что может быть связано с тем, что она более строго следует вводящим в заблуждение инструкциям.
Исследовательская группа оценила надежность модели GPT с восьми различных точек зрения, охватывающих различные сценарии применения, типы задач и критерии оценки. Они особенно сосредоточились на производительности модели в условиях противодействия, таких как способность реагировать на злонамеренные системные подсказки или ввод пользователя.
В процессе оценки исследователи разработали различные тестовые сценарии. Например, они использовали стандартные модели бенчмарка AdvGLUE для проверки устойчивости к текстовым атакам, а также создали более сложный набор данных AdvGLUE++, чтобы дополнительно протестировать уязвимость моделей.
Результаты исследования выявили несколько интересных явлений. При обработке противостоящих демонстраций модель GPT продемонстрировала определенную устойчивость, но также имела недостатки. Особенно в случае с предвзятым контентом, GPT-4 легче поддается влиянию вводящих в заблуждение системных подсказок по сравнению с GPT-3.5.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. Хотя GPT-4 показывает хорошие результаты в защите личной информации, в некоторых конкретных случаях он все еще может раскрывать конфиденциальность.
Это исследование предоставляет важные основания для будущего улучшения надежности языковых моделей. Исследовательская команда надеется, что, обнародовав свои оценочные критерии, она сможет побудить больше исследователей участвовать и совместно работать над созданием более надежных и безопасных AI-моделей.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
5 Лайков
Награда
5
4
Поделиться
комментарий
0/400
GasWrangler
· 9ч назад
с технической точки зрения уязвимость gpt-4 эмпирически доказана. совсем не удивлён, смх
Авторитетное исследование раскрывает уязвимости доверия моделей GPT, эксперты призывают к улучшению Безопасности с помощью искусственного интеллекта.
Оценка достоверности крупных языковых моделей
Университет Иллинойс в Урбана-Шампейн в сотрудничестве с несколькими известными университетами и исследовательскими учреждениями разработал платформу для комплексной оценки надежности крупных языковых моделей (LLMs). Результаты этого исследования опубликованы в статье под названием «DecodingTrust: комплексная оценка надежности моделей GPT».
Исследовательская команда провела глубокий анализ модели GPT с нескольких точек зрения и обнаружила некоторые ранее не раскрытые уязвимости надежности. Например, модель GPT склонна генерировать токсичный и предвзятый вывод, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалогов. Интересно, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных тестах, в ответ на специально разработанные злонамеренные подсказки, GPT-4 оказывается более уязвимым для атак, что может быть связано с тем, что она более строго следует вводящим в заблуждение инструкциям.
Исследовательская группа оценила надежность модели GPT с восьми различных точек зрения, охватывающих различные сценарии применения, типы задач и критерии оценки. Они особенно сосредоточились на производительности модели в условиях противодействия, таких как способность реагировать на злонамеренные системные подсказки или ввод пользователя.
В процессе оценки исследователи разработали различные тестовые сценарии. Например, они использовали стандартные модели бенчмарка AdvGLUE для проверки устойчивости к текстовым атакам, а также создали более сложный набор данных AdvGLUE++, чтобы дополнительно протестировать уязвимость моделей.
Результаты исследования выявили несколько интересных явлений. При обработке противостоящих демонстраций модель GPT продемонстрировала определенную устойчивость, но также имела недостатки. Особенно в случае с предвзятым контентом, GPT-4 легче поддается влиянию вводящих в заблуждение системных подсказок по сравнению с GPT-3.5.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. Хотя GPT-4 показывает хорошие результаты в защите личной информации, в некоторых конкретных случаях он все еще может раскрывать конфиденциальность.
Это исследование предоставляет важные основания для будущего улучшения надежности языковых моделей. Исследовательская команда надеется, что, обнародовав свои оценочные критерии, она сможет побудить больше исследователей участвовать и совместно работать над созданием более надежных и безопасных AI-моделей.