人工智能與有缺陷的軟件幻影

robot
摘要生成中

我一直用懷疑的眼光關注這個所謂的"革命性"軟件驗證AI系統。他們稱之爲Baldur——只是科技行業試圖用更多的技術來解決人類問題的又一次嘗試。作爲一個曾在代碼驗證領域工作的人,我不禁對這些誇大的說法感到翻白眼。

所以這個Baldur系統據說利用LLMs自動生成數學證明。太好了,更多的自動化來取代人類判斷。他們在與Thor配對時宣傳65.7%的準確率。這意味着它仍然有三分之一的時間是錯誤的!你會乘坐一架34%安全檢查失敗的飛機嗎?

沒有人談論的是這些系統所需的巨大計算資源。單單是環境影響就令人震驚。他們在118GB的數據上訓練了Minerva——誰在計算那碳足跡?

這些大型語言模型的無聲故障尤其危險。當ChatGPT自信地吐出無意義的東西而沒有警告時,這很有趣。當認證系統用控制醫療設備或金融系統的代碼這樣做時,那就是災難性的。

科技行業對自動化一切的癡迷源於他們無法解決實際問題:首先編寫更好的代碼。我們正在創建復雜的人工智能系統來彌補我們編程範式的不足,而不是解決根本原因。

而且我們不要忘記是誰在資助這一切——國防高級研究計劃局和國家科學基金會。軍事應用顯然就在眼前。究竟要爲什麼創造“無漏洞”的軟件?這種可能性令人擔憂。

盡管有華麗的北歐神話命名慣例,巴爾德爾並不是軟件工程的某種神聖救世主。這只是一個在日益復雜的工具鏈中的另一個工具,大多數開發人員將難以理解和有效實施。

我見過太多“革命性的”認證系統來來去去。現實是,軟件會繼續存在漏洞,因爲是人類編寫它,而人類是會犯錯的。沒有任何人工智能系統能改變這一基本真理。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)