人工智能與有缺陷的軟件幻影

2025-09-28 18:51:36

摘要生成中

我一直用懷疑的眼光關注這個所謂的"革命性"軟件驗證AI系統。他們稱之爲Baldur——只是科技行業試圖用更多的技術來解決人類問題的又一次嘗試。作爲一個曾在代碼驗證領域工作的人，我不禁對這些誇大的說法感到翻白眼。

所以這個Baldur系統據說利用LLMs自動生成數學證明。太好了，更多的自動化來取代人類判斷。他們在與Thor配對時宣傳65.7%的準確率。這意味着它仍然有三分之一的時間是錯誤的！你會乘坐一架34%安全檢查失敗的飛機嗎？

沒有人談論的是這些系統所需的巨大計算資源。單單是環境影響就令人震驚。他們在118GB的數據上訓練了Minerva——誰在計算那碳足跡？

這些大型語言模型的無聲故障尤其危險。當ChatGPT自信地吐出無意義的東西而沒有警告時，這很有趣。當認證系統用控制醫療設備或金融系統的代碼這樣做時，那就是災難性的。

科技行業對自動化一切的癡迷源於他們無法解決實際問題：首先編寫更好的代碼。我們正在創建復雜的人工智能系統來彌補我們編程範式的不足，而不是解決根本原因。

而且我們不要忘記是誰在資助這一切——國防高級研究計劃局和國家科學基金會。軍事應用顯然就在眼前。究竟要爲什麼創造“無漏洞”的軟件？這種可能性令人擔憂。

盡管有華麗的北歐神話命名慣例，巴爾德爾並不是軟件工程的某種神聖救世主。這只是一個在日益復雜的工具鏈中的另一個工具，大多數開發人員將難以理解和有效實施。

我見過太多“革命性的”認證系統來來去去。現實是，軟件會繼續存在漏洞，因爲是人類編寫它，而人類是會犯錯的。沒有任何人工智能系統能改變這一基本真理。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言