私はこのいわゆる「革命的な」AIシステムをソフトウェアの確認に対して懐疑的な目で見てきました。それをバルダーと呼んでいますが、ただのテクノロジー業界が人間の問題をより多くのテクノロジーで解決しようとする試みの一つです。私自身、コードの確認に携わってきたので、誇張された主張には思わず目をむいてしまいます。このバルドルシステムは、LLMを利用して数学的証明を自動的に生成するとのことです。素晴らしい、より多くの自動化が人間の判断を置き換えますね。彼らは、トールと組み合わせた場合の精度が65.7%であると謳っています。それはつまり、まだ三分の一の確率で間違っているということです!34%の安全チェックに失敗する飛行機に乗りますか?誰も話していないのは、これらのシステムが必要とする膨大な計算リソースです。環境への影響だけでも驚くべきものです。彼らは118GBのデータでミネルバをトレーニングしました - 誰がそのカーボンフットプリントを計算しているのでしょうか?これらのLLMの静かな失敗は特に危険です。ChatGPTが警告なしに自信を持ってナンセンスを吐き出すと、それは面白い。しかし、確認システムが医療機器や金融システムを制御するコードでそれを行うと、それは壊滅的です。テクノロジー業界がすべてを自動化することに執着しているのは、実際の問題、つまり最初により良いコードを書くことを解決できないからです。根本的な原因に対処するのではなく、私たちのプログラミングパラダイムの欠陥を修正するために複雑なAIシステムを作成しています。そして、誰がこれを資金提供しているのかを忘れないでおきましょう - DARPAとNSFです。軍事用途が明らかに近づいています。正確に言うと、何のために"バグのない"ソフトウェアを作るのでしょうか?可能性が懸念されます。派手な北欧神話の命名規則にもかかわらず、バルドルはソフトウェア工学のための神聖な救世主ではありません。それは、ほとんどの開発者が理解し、効果的に実装するのに苦労する、ますます複雑化するツールチェーンのもう一つのツールです。私は「革命的な」確認システムが来ては去るのを見てきました。現実には、ソフトウェアは人間が書くものであり、人間は誤りを犯すため、バグを持ち続けるでしょう。どんなAIシステムもその基本的な真実を変えることはできません。
AIとバギーソフトウェアの幻想
私はこのいわゆる「革命的な」AIシステムをソフトウェアの確認に対して懐疑的な目で見てきました。それをバルダーと呼んでいますが、ただのテクノロジー業界が人間の問題をより多くのテクノロジーで解決しようとする試みの一つです。私自身、コードの確認に携わってきたので、誇張された主張には思わず目をむいてしまいます。
このバルドルシステムは、LLMを利用して数学的証明を自動的に生成するとのことです。素晴らしい、より多くの自動化が人間の判断を置き換えますね。彼らは、トールと組み合わせた場合の精度が65.7%であると謳っています。それはつまり、まだ三分の一の確率で間違っているということです!34%の安全チェックに失敗する飛行機に乗りますか?
誰も話していないのは、これらのシステムが必要とする膨大な計算リソースです。環境への影響だけでも驚くべきものです。彼らは118GBのデータでミネルバをトレーニングしました - 誰がそのカーボンフットプリントを計算しているのでしょうか?
これらのLLMの静かな失敗は特に危険です。ChatGPTが警告なしに自信を持ってナンセンスを吐き出すと、それは面白い。しかし、確認システムが医療機器や金融システムを制御するコードでそれを行うと、それは壊滅的です。
テクノロジー業界がすべてを自動化することに執着しているのは、実際の問題、つまり最初により良いコードを書くことを解決できないからです。根本的な原因に対処するのではなく、私たちのプログラミングパラダイムの欠陥を修正するために複雑なAIシステムを作成しています。
そして、誰がこれを資金提供しているのかを忘れないでおきましょう - DARPAとNSFです。軍事用途が明らかに近づいています。正確に言うと、何のために"バグのない"ソフトウェアを作るのでしょうか?可能性が懸念されます。
派手な北欧神話の命名規則にもかかわらず、バルドルはソフトウェア工学のための神聖な救世主ではありません。それは、ほとんどの開発者が理解し、効果的に実装するのに苦労する、ますます複雑化するツールチェーンのもう一つのツールです。
私は「革命的な」確認システムが来ては去るのを見てきました。現実には、ソフトウェアは人間が書くものであり、人間は誤りを犯すため、バグを持ち続けるでしょう。どんなAIシステムもその基本的な真実を変えることはできません。