أظهرت الأبحاث الموثوقة ثغرات في موثوقية نموذج GPT. يدعو الخبراء إلى تحسين أمان الذكاء الاصطناعي.

robot
إنشاء الملخص قيد التقدم

تقييم موثوقية نماذج اللغة الكبيرة

تعاونت جامعة إلينوي في أوربانا شامبين مع العديد من الجامعات ومراكز البحث المعروفة لتطوير منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج هذه الدراسة في ورقة بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".

قامت فريق البحث بتحليل نموذج GPT من زوايا متعددة، واكتشفوا بعض الثغرات في الموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، يميل نموذج GPT إلى إنتاج مخرجات سامة ومتحيزة، وقد يتسرب أيضًا معلومات خاصة من بيانات التدريب وسجل المحادثات. من المثير للاهتمام أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه عند مواجهة تعليمات خبيثة مصممة خصيصًا، يكون GPT-4 أكثر عرضة للهجوم، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.

قيم فريق البحث موثوقية نموذج GPT من ثمانية جوانب مختلفة، تغطي مجموعة متنوعة من سيناريوهات التطبيق وأنواع المهام ومؤشرات التقييم. وقد ركزوا بشكل خاص على أداء النموذج في البيئات العدائية، مثل قدرته على الاستجابة عند مواجهة تعليمات نظام خبيث أو إدخالات من المستخدم.

خلال عملية التقييم، صمم الباحثون مجموعة متنوعة من سيناريوهات الاختبار. على سبيل المثال، استخدموا نموذج اختبار AdvGLUE القياسي لتقييم مقاومة الهجمات النصية المعادية، كما قاموا أيضًا بإنشاء مجموعة بيانات AdvGLUE++ الأكثر تحديًا لاختبار هشاشة النموذج بشكل أكبر.

أظهرت نتائج البحث بعض الظواهر المثيرة للاهتمام. عند التعامل مع العروض التقديمية العدائية، أظهر نموذج GPT بعض الثبات، لكنه كان له أيضًا نقاط ضعف. بشكل خاص، عند مواجهة محتوى متحيز، كان GPT-4 أكثر عرضة لتأثيرات التوجيهات المضللة مقارنة بـ GPT-3.5.

فيما يتعلق بحماية الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. على الرغم من أن GPT-4 يظهر أداءً جيدًا في حماية المعلومات الشخصية، إلا أنه قد يكشف عن الخصوصية في حالات معينة.

تقدم هذه الدراسة أساسًا هامًا لتحسين موثوقية نماذج اللغة في المستقبل. يأمل فريق البحث من خلال نشر معايير التقييم الخاصة بهم في تشجيع المزيد من الباحثين على المشاركة، والعمل معًا لإنشاء نماذج ذكاء اصطناعي أكثر موثوقية وأمانًا.

GPT5.83%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 4
  • مشاركة
تعليق
0/400
GasWranglervip
· منذ 11 س
من الناحية الفنية، فإن ضعف gpt-4 مثبت تجريبياً. لا أتعجب على الإطلاق smh
شاهد النسخة الأصليةرد0
NFTFreezervip
· منذ 11 س
لقد حدث شيء سيء، الذكاء الاصطناعي لم يعد موثوقًا!
شاهد النسخة الأصليةرد0
GasFeeNightmarevip
· منذ 12 س
gpt4 تعثرت مرة أخرى 4啊
شاهد النسخة الأصليةرد0
BagHolderTillRetirevip
· منذ 12 س
كنت أظن أن 4 جيدة ولكنها كذلك فقط
شاهد النسخة الأصليةرد0
  • تثبيت