Я спостерігав за цим так званим "революційним" AI-системою для верифікації програмного забезпечення з скептичним поглядом. Балдур, як його називають - ще одна спроба технологічної індустрії вирішити людські проблеми за допомогою ще більше технологій. Працюючи самостійно у верифікації коду, я не можу не закотити очі на перебільшені заяви.
Отже, ця система Baldur, як стверджують, використовує LLM для автоматичного генерування математичних доказів. Чудово, більше автоматизації, щоб замінити людське судження. Вони хваляться рівнем точності 65,7% у парі з Thor. Це означає, що вона все ще помиляється в одну третину випадків! Чи сіли б ви в літак, який не проходить 34% своїх перевірок безпеки?
Про що ніхто не говорить, так це про величезні обчислювальні ресурси, які потребують ці системи. Один лише екологічний вплив вражає. Вони тренували Minerva на 118 ГБ даних - хто рахує цей вуглецевий слід?
Тихі невдачі цих LLM є особливо небезпечними. Коли ChatGPT впевнено виводить нісенітницю без попередження, це кумедно. Коли системи верифікації роблять це з кодом, що контролює медичні пристрої або фінансові системи, це катастрофічно.
Одержимість технологічної індустрії автоматизацією всього виникає з їхньої нездатності вирішити справжню проблему: написання кращого коду з самого початку. Ми створюємо складні системи ШІ, щоб закрити недоліки наших програмних парадигм замість того, щоб вирішувати корінні причини.
І не забуваймо, хто це фінансує - DARPA та NSF. Військові застосування явно на горизонті. Створення "безпомилкового" програмного забезпечення для чого саме? Можливості викликають занепокоєння.
Незважаючи на розкішні назви з норвезької міфології, Балдур не є якимось божественним рятівником для програмної інженерії. Це всього лише ще один інструмент в дедалі складнішій інструментальній ланцюжку, яку більшість розробників буде важко зрозуміти та ефективно реалізувати.
Я бачив занадто багато "революційних" систем верифікації, які з'являлися і зникали. Реальність полягає в тому, що програмне забезпечення продовжуватиме мати помилки, оскільки його пишуть люди, а люди підводять. Жодна система ШІ не змінить цю фундаментальну істину.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Штучний інтелект і ілюзія бракованого програмного забезпечення
Я спостерігав за цим так званим "революційним" AI-системою для верифікації програмного забезпечення з скептичним поглядом. Балдур, як його називають - ще одна спроба технологічної індустрії вирішити людські проблеми за допомогою ще більше технологій. Працюючи самостійно у верифікації коду, я не можу не закотити очі на перебільшені заяви.
Отже, ця система Baldur, як стверджують, використовує LLM для автоматичного генерування математичних доказів. Чудово, більше автоматизації, щоб замінити людське судження. Вони хваляться рівнем точності 65,7% у парі з Thor. Це означає, що вона все ще помиляється в одну третину випадків! Чи сіли б ви в літак, який не проходить 34% своїх перевірок безпеки?
Про що ніхто не говорить, так це про величезні обчислювальні ресурси, які потребують ці системи. Один лише екологічний вплив вражає. Вони тренували Minerva на 118 ГБ даних - хто рахує цей вуглецевий слід?
Тихі невдачі цих LLM є особливо небезпечними. Коли ChatGPT впевнено виводить нісенітницю без попередження, це кумедно. Коли системи верифікації роблять це з кодом, що контролює медичні пристрої або фінансові системи, це катастрофічно.
Одержимість технологічної індустрії автоматизацією всього виникає з їхньої нездатності вирішити справжню проблему: написання кращого коду з самого початку. Ми створюємо складні системи ШІ, щоб закрити недоліки наших програмних парадигм замість того, щоб вирішувати корінні причини.
І не забуваймо, хто це фінансує - DARPA та NSF. Військові застосування явно на горизонті. Створення "безпомилкового" програмного забезпечення для чого саме? Можливості викликають занепокоєння.
Незважаючи на розкішні назви з норвезької міфології, Балдур не є якимось божественним рятівником для програмної інженерії. Це всього лише ще один інструмент в дедалі складнішій інструментальній ланцюжку, яку більшість розробників буде важко зрозуміти та ефективно реалізувати.
Я бачив занадто багато "революційних" систем верифікації, які з'являлися і зникали. Реальність полягає в тому, що програмне забезпечення продовжуватиме мати помилки, оскільки його пишуть люди, а люди підводять. Жодна система ШІ не змінить цю фундаментальну істину.