لقد كنت أراقب هذا النظام "الثوري" المزعوم للذكاء الاصطناعي للتحقق من البرمجيات بعين مشككة. يُطلق عليه اسم بالدر - مجرد محاولة أخرى من صناعة التكنولوجيا لحل مشاكل البشر بمزيد من التكنولوجيا. بعد أن عملت في التحقق من الشيفرات بنفسي، لا أستطيع إلا أن أرفع عينيّ استهزاءً بالمزاعم المبالغ فيها.
يبدو أن نظام بالدر يستغل نماذج اللغة الكبيرة لتوليد براهين رياضية تلقائيًا. رائع، مزيد من الأتمتة لتحل محل الحكم البشري. إنهم يروجون لمعدل دقة يبلغ 65.7% عند اقترانه مع ثور. هذا يعني أنه لا يزال خاطئًا ثلث الوقت! هل ستطير في طائرة تفشل في 34% من فحوصات السلامة؟
ما لا يتحدث عنه أحد هو الموارد الحاسوبية الهائلة التي تتطلبها هذه الأنظمة. التأثير البيئي وحده مذهل. لقد تم تدريب Minerva على 118 جيجابايت من البيانات - من الذي يحسب تلك البصمة الكربونية؟
الفشل الصامت لهذه النماذج اللغوية الكبيرة خطير بشكل خاص. عندما يقوم ChatGPT بإلقاء هراء بثقة دون تحذير، يكون الأمر ممتعًا. ولكن عندما تفعل أنظمة التحقق ذلك مع الشيفرات التي تتحكم في الأجهزة الطبية أو الأنظمة المالية، فإن ذلك يكون كارثيًا.
ت stems من عدم قدرتهم على حل المشكلة الفعلية: كتابة كود أفضل في المقام الأول. نحن نخلق أنظمة ذكاء اصطناعي معقدة لسد الثغرات في نماذج البرمجة لدينا بدلاً من معالجة الأسباب الجذرية.
ولا ننسى من يمول هذا - داربا و NSF. التطبيقات العسكرية واضحة في الأفق. إنشاء برامج "خالية من الأخطاء" من أجل ماذا بالضبط؟ الاحتمالات مثيرة للقلق.
على الرغم من تسميات الأساطير النوردية الفاخرة، إلا أن بالدر ليس مخلصًا إلهيًا لهندسة البرمجيات. إنه مجرد أداة أخرى في سلسلة أدوات معقدة بشكل متزايد، والتي سيكافح معظم المطورين لفهمها وتنفيذها بفعالية.
لقد رأيت الكثير من أنظمة "التحقق الثورية" تأتي وتذهب. الحقيقة هي أن البرمجيات ستستمر في وجود الأخطاء لأن البشر هم من يكتبونها، والبشر عرضة للخطأ. لن يغير أي نظام ذكاء اصطناعي هذه الحقيقة الأساسية.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
الذكاء الاصطناعي ووهم البرمجيات المعطلة
لقد كنت أراقب هذا النظام "الثوري" المزعوم للذكاء الاصطناعي للتحقق من البرمجيات بعين مشككة. يُطلق عليه اسم بالدر - مجرد محاولة أخرى من صناعة التكنولوجيا لحل مشاكل البشر بمزيد من التكنولوجيا. بعد أن عملت في التحقق من الشيفرات بنفسي، لا أستطيع إلا أن أرفع عينيّ استهزاءً بالمزاعم المبالغ فيها.
يبدو أن نظام بالدر يستغل نماذج اللغة الكبيرة لتوليد براهين رياضية تلقائيًا. رائع، مزيد من الأتمتة لتحل محل الحكم البشري. إنهم يروجون لمعدل دقة يبلغ 65.7% عند اقترانه مع ثور. هذا يعني أنه لا يزال خاطئًا ثلث الوقت! هل ستطير في طائرة تفشل في 34% من فحوصات السلامة؟
ما لا يتحدث عنه أحد هو الموارد الحاسوبية الهائلة التي تتطلبها هذه الأنظمة. التأثير البيئي وحده مذهل. لقد تم تدريب Minerva على 118 جيجابايت من البيانات - من الذي يحسب تلك البصمة الكربونية؟
الفشل الصامت لهذه النماذج اللغوية الكبيرة خطير بشكل خاص. عندما يقوم ChatGPT بإلقاء هراء بثقة دون تحذير، يكون الأمر ممتعًا. ولكن عندما تفعل أنظمة التحقق ذلك مع الشيفرات التي تتحكم في الأجهزة الطبية أو الأنظمة المالية، فإن ذلك يكون كارثيًا.
ت stems من عدم قدرتهم على حل المشكلة الفعلية: كتابة كود أفضل في المقام الأول. نحن نخلق أنظمة ذكاء اصطناعي معقدة لسد الثغرات في نماذج البرمجة لدينا بدلاً من معالجة الأسباب الجذرية.
ولا ننسى من يمول هذا - داربا و NSF. التطبيقات العسكرية واضحة في الأفق. إنشاء برامج "خالية من الأخطاء" من أجل ماذا بالضبط؟ الاحتمالات مثيرة للقلق.
على الرغم من تسميات الأساطير النوردية الفاخرة، إلا أن بالدر ليس مخلصًا إلهيًا لهندسة البرمجيات. إنه مجرد أداة أخرى في سلسلة أدوات معقدة بشكل متزايد، والتي سيكافح معظم المطورين لفهمها وتنفيذها بفعالية.
لقد رأيت الكثير من أنظمة "التحقق الثورية" تأتي وتذهب. الحقيقة هي أن البرمجيات ستستمر في وجود الأخطاء لأن البشر هم من يكتبونها، والبشر عرضة للخطأ. لن يغير أي نظام ذكاء اصطناعي هذه الحقيقة الأساسية.