Tenho observado este chamado sistema de IA "revolucionário" para verificação de software com olhos céticos. Chamam-lhe Baldur - apenas mais uma tentativa da indústria tecnológica de resolver problemas humanos com mais tecnologia. Tendo trabalhado na verificação de código, não consigo deixar de revirar os olhos perante as afirmações exageradas.
Este sistema Baldur supostamente utiliza LLMs para gerar provas matemáticas automaticamente. Ótimo, mais automação para substituir o julgamento humano. Eles estão a vangloriar-se de uma taxa de precisão de 65,7% quando emparelhado com Thor. Isso significa que ainda está errado um terço das vezes! Você voaria num avião que falha 34% das suas verificações de segurança?
O que ninguém está a falar é sobre os enormes recursos computacionais que estes sistemas requerem. O impacto ambiental por si só é impressionante. Eles treinaram a Minerva com 118GB de dados - quem está a contar essa pegada de carbono?
As falhas silenciosas destes LLMs são particularmente perigosas. Quando o ChatGPT despeja confusão com confiança sem aviso, é engraçado. Quando os sistemas de verificação o fazem com código que controla dispositivos médicos ou sistemas financeiros, é catastrófico.
A obsessão da indústria de tecnologia em automatizar tudo decorre da sua incapacidade de resolver o problema real: escrever código melhor desde o início. Estamos a criar sistemas de IA complexos para cobrir as deficiências dos nossos paradigmas de programação em vez de abordar as causas raízes.
E não vamos esquecer quem está a financiar isto - a DARPA e a NSF. Aplicações militares estão claramente no horizonte. Criar software "sem falhas" para quê exatamente? As possibilidades são preocupantes.
Apesar das convenções de nomenclatura da sofisticada mitologia nórdica, Baldur não é um salvador divino para a engenharia de software. É apenas mais uma ferramenta em uma cadeia de ferramentas cada vez mais complexa que a maioria dos desenvolvedores terá dificuldade em entender e implementar de forma eficaz.
Eu vi muitos sistemas de verificação "revolucionários" surgirem e desaparecerem. A realidade é que o software continuará a ter erros porque os humanos o escrevem, e os humanos são falíveis. Nenhum sistema de IA mudará essa verdade fundamental.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
IA e a Ilusão do Software Com Problemas
Tenho observado este chamado sistema de IA "revolucionário" para verificação de software com olhos céticos. Chamam-lhe Baldur - apenas mais uma tentativa da indústria tecnológica de resolver problemas humanos com mais tecnologia. Tendo trabalhado na verificação de código, não consigo deixar de revirar os olhos perante as afirmações exageradas.
Este sistema Baldur supostamente utiliza LLMs para gerar provas matemáticas automaticamente. Ótimo, mais automação para substituir o julgamento humano. Eles estão a vangloriar-se de uma taxa de precisão de 65,7% quando emparelhado com Thor. Isso significa que ainda está errado um terço das vezes! Você voaria num avião que falha 34% das suas verificações de segurança?
O que ninguém está a falar é sobre os enormes recursos computacionais que estes sistemas requerem. O impacto ambiental por si só é impressionante. Eles treinaram a Minerva com 118GB de dados - quem está a contar essa pegada de carbono?
As falhas silenciosas destes LLMs são particularmente perigosas. Quando o ChatGPT despeja confusão com confiança sem aviso, é engraçado. Quando os sistemas de verificação o fazem com código que controla dispositivos médicos ou sistemas financeiros, é catastrófico.
A obsessão da indústria de tecnologia em automatizar tudo decorre da sua incapacidade de resolver o problema real: escrever código melhor desde o início. Estamos a criar sistemas de IA complexos para cobrir as deficiências dos nossos paradigmas de programação em vez de abordar as causas raízes.
E não vamos esquecer quem está a financiar isto - a DARPA e a NSF. Aplicações militares estão claramente no horizonte. Criar software "sem falhas" para quê exatamente? As possibilidades são preocupantes.
Apesar das convenções de nomenclatura da sofisticada mitologia nórdica, Baldur não é um salvador divino para a engenharia de software. É apenas mais uma ferramenta em uma cadeia de ferramentas cada vez mais complexa que a maioria dos desenvolvedores terá dificuldade em entender e implementar de forma eficaz.
Eu vi muitos sistemas de verificação "revolucionários" surgirem e desaparecerem. A realidade é que o software continuará a ter erros porque os humanos o escrevem, e os humanos são falíveis. Nenhum sistema de IA mudará essa verdade fundamental.