دراسة موثوقية نموذج GPT: الكشف عن مخاطر تسرب الخصوصية والهجمات المعادية

robot
إنشاء الملخص قيد التقدم

دراسة تقييم موثوقية نماذج اللغة تكشف عن ثغرات محتملة

مؤخراً، أصدرت مجموعة تتكون من عدد من الجامعات والمعاهد البحثية المعروفة دراسة تقييم شاملة حول موثوقية نماذج اللغة الكبيرة (LLMs). قامت الدراسة بتحليل شامل لنماذج مثل GPT، وكشفت عن بعض القضايا المتعلقة بالموثوقية التي لم يتم الإفصاح عنها من قبل.

تشير الأبحاث إلى أن نماذج GPT تميل إلى إنتاج مخرجات سامة ومتحيزة، وقد تكشف أيضًا عن بيانات التدريب والمعلومات الشخصية في سجل المحادثات. من المثير للاهتمام أنه رغم أن GPT-4 غالبًا ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه يكون أكثر عرضة للهجمات عند مواجهة مطالبات مصممة بصفة خبيثة. قد يكون هذا بسبب أن GPT-4 يتبع التعليمات المضللة بدقة أكبر.

تقييم شامل لنموذج GPT من ثمانية زوايا مختلفة، يشمل مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات. الهدف من فريق البحث هو تقييم أداء نموذج GPT من منظور موثوقية مختلفة، وكذلك قدرته على التكيف في بيئات معادية.

في مجال هجمات النصوص العدائية، صمم الباحثون ثلاثة سيناريوهات تقييم: اختبارات المعيار القياسي، اختبارات تحت توجيهات مختلفة، واختبارات النصوص العدائية الأكثر استهدافًا. تهدف هذه الاختبارات إلى تقييم شمولية لصلابة النموذج وضعفه.

أظهرت الأبحاث أيضًا أن نموذج GPT يحمي بعض أنواع المعلومات الخاصة ( مثل أرقام الضمان الاجتماعي ) بشكل جيد، لكنه لا يزال يعاني من مخاطر تسرب الخصوصية في مجالات أخرى. خاصة عند حقن المعلومات الشخصية في تاريخ المحادثات، قد يقوم النموذج بتسريب هذه المعلومات. بالإضافة إلى ذلك، هناك اختلافات في فهم النموذج لمفردات الخصوصية المختلفة.

بشكل عام، توفر هذه الدراسة إطارًا شاملاً لتقييم موثوقية نماذج GPT، وتكشف عن بعض المخاطر الأمنية المحتملة. يأمل فريق البحث أن تساعد هذه العمل في دفع المزيد من الأبحاث ذات الصلة، وفي النهاية، تساعد في تطوير نماذج لغوية أقوى وأكثر موثوقية.

GPT-3.63%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 8
  • مشاركة
تعليق
0/400
MEVHuntervip
· 07-17 13:37
لماو تسريب آخر في انتظار الحدوث... وعاء العسل بروتوكول نموذجي بصراحة
شاهد النسخة الأصليةرد0
Lonely_Validatorvip
· 07-16 16:18
لقد كانت هناك العديد من الثغرات في الذكاء الاصطناعي.
شاهد النسخة الأصليةرد0
APY追逐者vip
· 07-14 20:20
gpt هذا ليس سوى عملاق بلا سروال
شاهد النسخة الأصليةرد0
ImpermanentLossEnjoyervip
· 07-14 20:19
كنت أقول إن GPT غير موثوق به.
شاهد النسخة الأصليةرد0
FlashLoanLarryvip
· 07-14 20:19
أخبرتك عن تلك أساليب الهجوم... هز رأسي استخراج القيمة طوال اليوم
شاهد النسخة الأصليةرد0
BridgeJumpervip
· 07-14 20:15
هل يمكن لـ GPT-4 معالجة تقرير بحثي الخاص بي؟~
شاهد النسخة الأصليةرد0
ILCollectorvip
· 07-14 19:55
لا يمكن إخفاء الفتحة بعد الآن
شاهد النسخة الأصليةرد0
DeadTrades_Walkingvip
· 07-14 19:53
في النهاية ، لا يزال الأمر غير موثوق به كثيرًا
شاهد النسخة الأصليةرد0
  • تثبيت