تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التكنولوجية للتعاون اللامركزي

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التكنولوجية للتعاون اللامركزي

في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النماذج هو المرحلة الأكثر استهلاكاً للموارد والأعلى من حيث العوائق التقنية، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية تطبيقاته العملية. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، يتطلب عملية التدريب استثماراً مستمراً من القوة الحاسوبية الكبيرة، وعمليات معالجة البيانات المعقدة، ودعم خوارزميات التحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية في بناء أنظمة الذكاء الاصطناعي. من منظور نماذج الهيكل، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي يتم التركيز عليه في هذه المقالة.

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية في التعاون اللامركزي

تدريب المركزية هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة أداء عالية محلية، من الأجهزة إلى البرمجيات الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب التي يتم تنسيقها وتشغيلها بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية المتكاملة مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل لتحقيق الكفاءة المثلى، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، وتتميز بكفاءة عالية، وموارد قابلة للتحكم، ولكنها في الوقت نفسه تواجه مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقطة الواحدة.

التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، حيث تكمن الفكرة الأساسية في تقسيم مهمة تدريب النموذج، ثم توزيعها على عدة آلات لتنفيذها بشكل متزامن، وذلك لتجاوز قيود الحساب والتخزين على آلة واحدة. ورغم أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن السيطرة والتنسيق والتزامن لا يزال يتم من قبل مؤسسة مركزية بشكل عام، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية NVLink للتوصيل السريع، حيث يتم تنسيق المهام الفرعية بواسطة العقدة الرئيسية. تشمل الطرق الرئيسية ما يلي:

  • البيانات المتوازية: كل عقدة تدرب معلمات بيانات مختلفة تتشارك في وزن النموذج، يجب مطابقتها.
  • التوازي النموذجي: نشر أجزاء مختلفة من النموذج على نقاط مختلفة لتحقيق قابلية التوسع العالية؛
  • تنفيذ متسلسل على مراحل: تحسين معدل الإرسال؛
  • التوازي بالموتر: تقسيم دقيق لحساب المصفوفات، لتحسين دقة التوازي.

التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، يشبه توجيه نفس المدير لمجموعة من الموظفين في "مكاتب" متعددة للتعاون في إتمام المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبرى السائدة تقريباً بهذه الطريقة.

يمثل التدريب اللامركزي مسارًا مستقبليًا أكثر انفتاحًا وخصائص مقاومة للرقابة. تتمثل الخصائص الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب دون منسق مركزي، وعادةً ما يتم ذلك من خلال بروتوكولات تحرك توزيع المهام والتعاون، وبمساعدة آلية تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:

  • صعوبة تباين الأجهزة وتقسيم المهام: صعوبة تنسيق الأجهزة اللامركزية، وكفاءة تقسيم المهام منخفضة؛
  • اختناق كفاءة الاتصال: عدم استقرار الاتصال الشبكي، واختناق مزامنة التدرج واضح؛
  • نقص التنفيذ الموثوق: نقص في بيئة التنفيذ الموثوق، من الصعب التحقق مما إذا كانت العقدة تشارك بالفعل في الحساب؛
  • نقص التنسيق الموحد: لا يوجد جهاز تنسيق مركزي، توزيع المهام، آلية التراجع عن الأخطاء معقدة.

يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي واسع النطاق القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، يشمل بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن أن يكون "تعاون فعال + تحفيز على الأمانة + نتائج صحيحة" لا يزال في مرحلة الاستكشاف الأولية.

التعلم الفيدرالي كونه شكل انتقال بين التوزيع واللامركزية، يبرز أهمية الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على امتثال الخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، وفي الوقت نفسه يمتلك ميزة توزيع البيانات لتدريب لامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص الانفتاح الكامل ومقاومة الرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سيناريوهات امتثال الخصوصية، حيث يكون في مهام التدريب وهيكل الثقة وآلية الاتصال أكثر اعتدالًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية في التعاون اللامركزي

اللامركزية تدريب الحدود، الفرص والطرق الواقعية

من حيث نمط التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهام، واحتياجات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإكماله بكفاءة بين العقد المتنوعة وغير الموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بشكل فعال في الشبكات المفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة قوية مقيدة بالامتثال القانوني والقيود الأخلاقية، ولا يمكن مشاركتها بشكل مفتوح؛ في حين أن المهام التي تفتقر إلى أساس الحوافز التعاونية تفتقر إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.

لكن هذا لا يعني أن التدريب اللامركزي هو مفهوم زائف. في الواقع، في أنواع المهام التي تتميز بخفة الهيكل وسهولة التوازي وإمكانية التحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك، ولكن لا تقتصر على: ضبط LoRA، مهام التدريب اللاحق الموجهة للسلوك، مهام تدريب ووسم البيانات عبر الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تمتاز هذه المهام بشكل عام بخصائص عالية من التوازي، وانخفاض الترابط، وقابلية تحمل القدرة الحاسوبية غير المتجانسة، مما يجعلها مناسبة جداً للتدريب التعاوني عبر الشبكات P2P، بروتوكول Swarm، المحسنات الموزعة، وغيرها من الطرق.

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية للتعاون اللامركزي

تحليل مشاريع التدريب الكلاسيكية اللامركزية

في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي على البلوكشين Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم الأنظمة والخوارزميات، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ بينما المسارات التنفيذية لـ Gensyn وFlock.io واضحة نسبيًا، حيث يمكن رؤية تقدم هندسي أولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية وهياكل الهندسة وراء هذه المشاريع الخمسة، وستستكشف المزيد عن اختلافاتها وعلاقاتها التكميلية في نظام التدريب اللامركزي للذكاء الاصطناعي.

Prime Intellect: رائد شبكة التعلم المعزز التعاوني القابلة للتحقق من مسارات التدريب

تسعى Prime Intellect لبناء شبكة تدريب AI لا تتطلب الثقة، بحيث يمكن لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة لمساهمته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST في بناء نظام تدريب AI اللامركزي الذي يتمتع بالتحقق، والانفتاح، وآلية تحفيز مكتملة.

أ. هيكل بروتوكول Prime Intellect وقيمة الوحدات الرئيسية

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية للتعاون اللامركزي

ثانياً، شرح الآلية الرئيسية لتدريب Prime Intellect

PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك

PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص من Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف أولوي، ويفكك هيكليًا عمليات التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال حلقة المهمة محليًا بشكل مستقل، والتعاون من خلال واجهات موحدة وآليات التحقق والتجميع. مقارنةً بعمليات التعلم الإشرافي التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويؤسس أيضًا لدعم المهام المتعددة المتوازية وتطور الاستراتيجيات.

TOPLOC: آلية تحقق سلوك التدريب الخفيفة

TOPLOC هو آلية أساسية للتحقق من التدريب اقترحها Prime Intellect، تستخدم لتحديد ما إذا كانت العقدة قد أكملت فعلاً تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل "تسلسل المراقبة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة. إنها تحول لأول مرة المسارات السلوكية خلال عملية التدريب إلى كائنات يمكن التحقق منها، وهو الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب دون الحاجة إلى الثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية يمكن تدقيقها وتحفيزها.

SHARDCAST: بروتوكول تجميع الوزن غير المتزامن ونشره

SHARDCAST هو بروتوكول نشر ودمج للوزن مصمم بواسطة Prime Intellect، مُحسّن خصيصًا للبيئات الشبكية الحقيقية غير المتزامنة والمحدودة النطاق والمتغيرة حالة العقد. يجمع بين آلية نشر gossip واستراتيجية التزامن المحلي، مما يسمح للعديد من العقد بتقديم تحديثات جزئية بشكل مستمر في حالات عدم التزامن، مما يحقق التقارب التدريجي للوزن وتطور متعدد النسخ. بالمقارنة مع طرق AllReduce المركزية أو المتزامنة، يُحسن SHARDCAST بشكل ملحوظ من قابلية التوسع وقدرة التحمل للتدريب اللامركزي، ويعد الأساس الأساسي لبناء توافق وزن مستقر وتكرار تدريب مستمر.

OpenDiLoCo: إطار الاتصال غير المتزامن النادر

OpenDiLoCo هو إطار تحسين الاتصالات الذي تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect استنادًا إلى مفهوم DiLoCo الذي اقترحته DeepMind، وهو مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، تغاير الأجهزة وعدم استقرار العقد. يعتمد هيكله على التوازي البياني، من خلال بناء هياكل طوبولوجية متفرقة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على الجيران المحليين لإكمال التدريب التعاوني للنموذج. مع الجمع بين التحديثات غير المتزامنة وآلية تحمل النقاط العالقة، يسمح OpenDiLoCo لمعدات GPU الاستهلاكية والأجهزة الطرفية بالمشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، ويعد أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.

PCCL: مكتبة الاتصالات التعاونية

PCCL هو مكتبة اتصالات خفيفة الوزن تم تصميمها خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل عنق الزجاجة في التكيف الذي تعاني منه مكتبات الاتصالات التقليدية على الأجهزة غير المتجانسة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL الطوبولوجيا المتناثرة، وضغط التدرجات، والتزامن بدقة منخفضة واستئناف النقاط، ويمكن تشغيله على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. إنه يعزز بشكل كبير من قدرة تحمل النطاق الترددي لشبكة التدريب وتوافق الأجهزة، ويفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وبدون حاجة للثقة.

ثالثا، شبكة Prime Intellect والحوافز وتقسيم الأدوار

بني Prime Intellect شبكة تدريبية قابلة للتحقق، دون إذن، وتحتوي على آلية تحفيز اقتصادي، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:

  • مُبَادِرُ المُهِمَّة: تحديد بيئة التدريب، النموذج الأولي، دالة المكافأة ومعايير التحقق
  • عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
  • عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات

تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيز حول "سلوك التدريب الحقيقي".

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية في التعاون اللامركزي

الرابع، INTELLECT-2: إصدار أول نموذج تدريب قابل للتحقق واللامركزي

تم إصدار INTELLECT-2 من قبل Prime Intellect في مايو 2025، وهو أول نموذج كبير للتعلم المعزز تم تدريبه بواسطة عقد لامركزية غير موثوقة ومتزامنة. يصل حجم المعلمات إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون بين أكثر من 100 عقدة GPU غير متجانسة منتشرة عبر ثلاث قارات، باستخدام هيكل غير متزامن بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة المتعاونة غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا التطبيق النظامي الأول لمفهوم "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 بروتوكولات أساسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يرمز إلى التدريب اللامركزي.

PRIME-0.94%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 2
  • مشاركة
تعليق
0/400
LiquiditySurfervip
· منذ 4 س
التعدين哥们终于有点着落了
شاهد النسخة الأصليةرد0
ApeShotFirstvip
· منذ 5 س
مرة أخرى يتحدثون عن ثورة اللامركزية، لماذا التسرع؟
شاهد النسخة الأصليةرد0
  • تثبيت