- Joshua Rogers encontrou uma grande lista de problemas potenciais na base de código do curl usando seu próprio conjunto de ferramentas baseado em IA
- A lista inclui não apenas pequenos defeitos de estilo de código, mas também bugs menores e possíveis brechas de segurança
- A maioria dos problemas encontrados são bugs pequenos, mas 1 ou 2 podem ser falhas de segurança críticas
- Como são problemas que não haviam sido descobertos antes, o resultado é de fato muito valioso
- Com base no que foi relatado, 22 correções de bugs já foram concluídas
- Ainda restam mais que o dobro de issues não verificadas, então a revisão e as correções continuam em andamento
- Os problemas detalhados foram marcados como "Reported in Joshua's sarif data", e, se houver interesse, é possível verificar esses dados diretamente
1 comentários
Comentários no Hacker News
Em vez de escrever ou corrigir o código diretamente, eu quero que ele aponte partes suspeitas no código e onde eu deveria olhar com mais atenção
Se eu pedir ao Claude para encontrar bugs na minha biblioteca C de 20 mil linhas, ele divide os arquivos e faz grep de certos padrões de código, e no fim só lista meus próprios comentários FIXME (risos)
Na prática, isso está no nível de um simples script bash e é bem decepcionante
O ChatGPT é ainda menos útil, só fica repetindo "está tudo ótimo! incrível! toca aqui~"
Até agora, a análise estática tradicional tem ajudado muito mais a encontrar bugs reais, mas o fato de a análise estática estar limpa não significa que não existam bugs lógicos
Acho que é exatamente aí que os LLMs deveriam brilhar
Se for preciso montar um ambiente extremamente customizado para tirar dos LLMs informações mais úteis sobre bugs potenciais, então a utilidade acaba caindo, do mesmo jeito que ferramentas de análise estática que exigem configuração complexa acabam sendo pouco usadas
A direção de a IA escrever o código e o programador só revisar parece, de certa forma, um caminho errado
Claro, eu entendo por que querem vender isso no estilo "o número de linhas de código vai aumentar~"
Por exemplo: "Que prompt eu deveria usar para fazer o Claude Code montar um plano para revisar bugs lógicos de forma eficaz, ignorando comentários como FIXME e TODO?"
O prompt resultante é longo demais para colocar aqui, mas dá para ver um exemplo publicado em gist
Com base nisso, também dá para continuar refinando e transformar em um agente
Depois do teste grátis, ele ficou tão popular no nosso time de desenvolvimento que adotamos oficialmente
Tirando alguns falsos positivos ocasionais, ele é muito útil
Economiza bastante tempo tanto para quem abre o PR quanto para os revisores
Houve casos em que consegui resolver um problema que normalmente teria levado horas, graças às pistas recebidas
Tenho bastante expectativa em relação a esse tipo de uso de IA
Fiquei um pouco surpreso com essa resposta de "está tudo certo"
Quando uso no Codex CLI, ele frequentemente levanta dúvidas
O Gemini 2.5 Pro também é bom nesse ponto
Vale a pena olhar o histórico: link de busca no HN sobre curl+AI
No fim, parece mais correto enxergar isso como a diferença entre quem usa entendendo de fato e quem só programa no embalo do clima
Isso contrasta com o passado, quando Daniel Stenberg sofreu com issues de pseudo-segurança malfeitas geradas por IA
Sobre o HackerOne: "Quem enviar issue lixo gerada por IA vai ser banido na hora. Isso é praticamente um ataque DDoS. Dá vontade até de cobrar pelo tempo desperdiçado"
Veja também um post do blog do Daniel de janeiro deste ano: The I in LLM stands for Intelligence?
printfincorreto parasize_t, podem ser detectados só com as flags de warning do compilador bem configuradasSeria bastante útil se a IA aconselhasse algo como "faltam flags importantes de warning do compilador"
Alguns PRs provavelmente têm a ver com correspondências do dependabot, e se você buscar por "Joshua sarif data" verá uma lista mais específica de PRs link
Imagino que isso explique a mudança na impressão de Daniel Stenberg
Há muita defesa da adoção de tecnologia SAST baseada em IA e vários produtos desse tipo já foram lançados, mas a grande maioria ainda fica abaixo das expectativas
Já é bom quando só decepciona; no pior caso, isso cria uma falsa confiança em uma segurança equivocada, o que é perigoso
Uma visão crítica sobre scanners SAST baseados em IA e seus fundamentos é apresentada aqui
Fiquei curioso sobre por que essa estratégia foi mais eficaz desta vez, em uma situação em que várias outras ferramentas antes não tinham encontrado os bugs
Pelo link do Mastodon, parece que a ideia era confirmar que, mesmo com snippet de código incorreto, ainda se tratava de um bug real