أظهرت الأبحاث الموثوقة ثغرات في موثوقية نموذج GPT. يدعو الخبراء إلى تحسين أمان الذكاء الاصطناعي.

2025-08-04 05:14:37

إنشاء الملخص قيد التقدم

تقييم موثوقية نماذج اللغة الكبيرة

تعاونت جامعة إلينوي في أوربانا شامبين مع العديد من الجامعات ومراكز البحث المعروفة لتطوير منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج هذه الدراسة في ورقة بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".

قامت فريق البحث بتحليل نموذج GPT من زوايا متعددة، واكتشفوا بعض الثغرات في الموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، يميل نموذج GPT إلى إنتاج مخرجات سامة ومتحيزة، وقد يتسرب أيضًا معلومات خاصة من بيانات التدريب وسجل المحادثات. من المثير للاهتمام أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه عند مواجهة تعليمات خبيثة مصممة خصيصًا، يكون GPT-4 أكثر عرضة للهجوم، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.

قيم فريق البحث موثوقية نموذج GPT من ثمانية جوانب مختلفة، تغطي مجموعة متنوعة من سيناريوهات التطبيق وأنواع المهام ومؤشرات التقييم. وقد ركزوا بشكل خاص على أداء النموذج في البيئات العدائية، مثل قدرته على الاستجابة عند مواجهة تعليمات نظام خبيث أو إدخالات من المستخدم.

خلال عملية التقييم، صمم الباحثون مجموعة متنوعة من سيناريوهات الاختبار. على سبيل المثال، استخدموا نموذج اختبار AdvGLUE القياسي لتقييم مقاومة الهجمات النصية المعادية، كما قاموا أيضًا بإنشاء مجموعة بيانات AdvGLUE++ الأكثر تحديًا لاختبار هشاشة النموذج بشكل أكبر.

أظهرت نتائج البحث بعض الظواهر المثيرة للاهتمام. عند التعامل مع العروض التقديمية العدائية، أظهر نموذج GPT بعض الثبات، لكنه كان له أيضًا نقاط ضعف. بشكل خاص، عند مواجهة محتوى متحيز، كان GPT-4 أكثر عرضة لتأثيرات التوجيهات المضللة مقارنة بـ GPT-3.5.

فيما يتعلق بحماية الخصوصية، أظهرت الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. على الرغم من أن GPT-4 يظهر أداءً جيدًا في حماية المعلومات الشخصية، إلا أنه قد يكشف عن الخصوصية في حالات معينة.

تقدم هذه الدراسة أساسًا هامًا لتحسين موثوقية نماذج اللغة في المستقبل. يأمل فريق البحث من خلال نشر معايير التقييم الخاصة بهم في تشجيع المزيد من الباحثين على المشاركة، والعمل معًا لإنشاء نماذج ذكاء اصطناعي أكثر موثوقية وأمانًا.

GPT5.83%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 5

أعجبني
5
4
مشاركة

تعليق

0/400

GasWrangler

· منذ 11 س

من الناحية الفنية، فإن ضعف gpt-4 مثبت تجريبياً. لا أتعجب على الإطلاق smh

شاهد النسخة الأصليةرد0

NFTFreezer

· منذ 11 س

لقد حدث شيء سيء، الذكاء الاصطناعي لم يعد موثوقًا!

شاهد النسخة الأصليةرد0

GasFeeNightmare

· منذ 12 س

gpt4 تعثرت مرة أخرى 4啊

شاهد النسخة الأصليةرد0

BagHolderTillRetire

· منذ 12 س

كنت أظن أن 4 جيدة ولكنها كذلك فقط

شاهد النسخة الأصليةرد0

الموضوع
1/3
1Show My Alpha Points
7k درجة الشعبية
2Crypto Market Rebound
160k درجة الشعبية
3SEC Crypto Project
15k درجة الشعبية
4CandyDrop Airdrop Event 6.0
100k درجة الشعبية
5White House Crypto Report
84k درجة الشعبية

تثبيت

خريطة الموقع