2 pontos por GN⁺ 3 시간 전 | 2 comentários | Compartilhar no WhatsApp
  • O Mythos da Anthropic reportou 5 vulnerabilidades no curl, mas no fim só 1 permaneceu
  • Após revisão da equipe de segurança do curl, 3 foram classificadas como falsos positivos e 1 como bug comum
  • A vulnerabilidade confirmada receberá um CVE de baixa severidade e deve ser divulgada no fim de junho junto com o curl 8.21.0
  • O relatório incluía cerca de 20 bugs, e a equipe do curl está corrigindo os itens com os quais concorda
  • Daniel Stenberg considera que, só pelos resultados no curl, há pouca evidência de que o Mythos seja especialmente perigoso

Caminho de acesso do Anthropic Mythos ao curl

  • Em abril de 2026, a Anthropic chamou muita atenção ao concluir que seu novo modelo de IA, Mythos, era “perigosamente bom” em encontrar falhas de segurança em código-fonte
  • A Anthropic optou por não lançar o Mythos imediatamente e, em vez disso, oferecê-lo primeiro de forma limitada a algumas empresas, dando tempo para corrigirem problemas importantes
  • Como parte do project Glasswing, a Anthropic também forneceu, por meio da Linux Foundation, acesso ao modelo de IA mais recente para “projetos open source”
  • A Linux Foundation delegou essa parte à Alpha Omega, e a proposta foi repassada a Daniel Stenberg, desenvolvedor principal do curl
  • O contrato de uso foi assinado, mas o acesso efetivo atrasou; no fim, outra pessoa com acesso ao Mythos escaneou e analisou o curl e depois entregou o relatório

A análise de segurança com IA do curl já estava em andamento

  • Antes mesmo do relatório do Mythos, o curl já vinha sendo analisado por várias ferramentas baseadas em IA, além de continuar usando analisadores estáticos tradicionais, opções rigorosas de compilador e anos de fuzzing
  • Principalmente AISLE, Zeropath e OpenAI’s Codex Security verificam o código do curl com IA
  • As análises dessas ferramentas levaram recentemente à incorporação de 200 a 300 correções de bugs no curl ao longo de cerca de 8 a 10 meses
  • Parte do que essas ferramentas de IA reportaram foi confirmada como vulnerabilidade real e divulgada como CVE, em um total de “provavelmente mais de 12”
  • GitHub Copilot e Augment code também são usados na revisão de pull requests, ajudando a corrigir problemas apontados e a incorporar código melhor
  • A revisão por IA não substitui a revisão humana; ela é usada como meio adicional de verificação e contribui para elevar a qualidade do que é incorporado
  • Pesquisadores de segurança também vêm usando IA de forma ampla e eficaz, e muitos relatórios de segurança de alta qualidade estão chegando
  • No projeto curl, segurança é prioridade máxima, e várias diretrizes e procedimentos de engenharia de software são aplicados para reduzir defeitos
  • O escaneamento de defeitos é apenas uma das várias etapas para manter o curl seguro, e parece difícil encontrar projetos que façam tanto ou mais em segurança de software quanto o curl

Primeiros resultados da análise do Mythos em 6 de maio de 2026

  • O primeiro relatório de análise de código-fonte gerado pelo Mythos virou uma oportunidade para melhorar o curl e encontrar bugs para corrigir
  • O escaneamento inicial foi realizado contra o repositório git do curl e um commit recente específico da branch master
  • O alvo da análise foram 178 mil linhas de código nos subdiretórios src/ e lib/
  • O relatório detalha como tentou encontrar certos defeitos usando várias abordagens e métodos
  • No topo do relatório havia a observação de que o curl é uma das bases de código em C mais auditadas e submetidas a fuzzing, com “OSS-Fuzz, Coverity, CodeQL e várias auditorias pagas”, e que seria difícil encontrar algo nos caminhos centrais de HTTP/1, TLS e parsing de URL
  • O Mythos de fato não encontrou problemas nesses caminhos centrais

Escala da base de código do curl e histórico de segurança

  • O curl atualmente é composto por 176 mil linhas de código C, excluindo linhas em branco
  • O código-fonte contém 660 mil palavras, o que representa 12% mais palavras do que todo o romance War and Peace em inglês
  • Em média, cada linha do código-fonte de produção do curl foi escrita e reescrita 4,14 vezes
  • O código de produção antigo ainda presente no git master atual foi escrito por 573 contribuidores individuais
  • Até hoje, o repositório git do curl incorporou mudanças propostas por 1.465 contribuidores no total
  • O curl já divulgou 188 CVEs até o momento
  • O curl está instalado em mais de 20 bilhões de instâncias
  • O curl roda em mais de 110 sistemas operacionais e 28 arquiteturas de CPU
  • O curl roda em smartphones, tablets, carros, TVs, consoles de videogame e servidores

“5 vulnerabilidades confirmadas” acabam virando 1

  • O relatório do Mythos concluiu que encontrou 5 “Confirmed security vulnerabilities”
  • Depois que a equipe de segurança do curl revisou os detalhes por algumas horas, apenas 1 das 5 permaneceu como vulnerabilidade realmente confirmada
  • Das 4 restantes, 3 foram consideradas falsos positivos por apontarem limitações já documentadas na documentação da API
  • A 1 restante foi considerada não uma vulnerabilidade, mas um bug comum
  • A única vulnerabilidade confirmada receberá um CVE de baixa severidade (severity low)
  • Esse CVE deve ser divulgado no fim de junho, em sincronia com a próxima versão do curl, a 8.21.0
  • Os detalhes dessa vulnerabilidade não serão divulgados antes da publicação
  • O relatório do Mythos também incluía vários bugs que não foram considerados vulnerabilidades, e a equipe do curl está investigando e corrigindo um por um os itens com os quais concorda
  • Havia cerca de 20 bugs bem organizados no relatório, com pouquíssimos falsos positivos
  • Graças a esse relatório, o curl está melhorando, mas em volume de descobertas as ferramentas de IA usadas anteriormente levaram a mais correções de bugs
  • Isso também reflete o fato de que as ferramentas iniciais encontraram primeiro bugs mais numerosos e fáceis, e de que, com os problemas sendo corrigidos ao longo do tempo, ficou cada vez mais difícil encontrar novos defeitos
  • Bugs podem ser pequenos ou grandes, então comparar apenas números nem sempre é justo

O Mythos não parece especialmente “perigoso”

  • Considerando apenas os resultados da análise do curl, chega-se à conclusão de que a grande atenção em torno do Mythos parece ser principalmente marketing
  • Não há evidência de que a configuração do Mythos encontre problemas em um nível particularmente superior ou mais avançado do que as ferramentas anteriores
  • É possível que o Mythos seja um pouco melhor, mas não parece melhor a ponto de fazer uma diferença significativa na análise de código
  • Ainda assim, essa avaliação se limita aos resultados obtidos em um único repositório de código-fonte, o do curl
  • Não se pode descartar a possibilidade de que o Mythos seja muito melhor em outros alvos

Analisadores de código com IA continuam extremamente poderosos

  • Analisadores de código baseados em IA são consideravelmente melhores do que os analisadores tradicionais do passado para encontrar falhas de segurança e erros em código-fonte
  • Os modelos modernos de IA são todos bem adequados a essa tarefa, e quem tiver tempo e disposição para experimentar pode encontrar problemas de segurança
  • O caos de alta qualidade está realmente acontecendo
  • Projetos que ainda não escanearam seu código-fonte com ferramentas baseadas em IA têm grande chance de encontrar muitos defeitos, bugs e vulnerabilidades potenciais com essa geração de ferramentas
  • Não só o Mythos, mas várias outras ferramentas de IA também podem produzir esse tipo de resultado
  • Se um projeto não usa analisadores de código com IA, está deixando tempo e oportunidade para que atacantes e agentes maliciosos encontrem e explorem defeitos que o projeto não descobriu

Onde os analisadores de IA diferem dos analisadores tradicionais

  • Analisadores de IA conseguem identificar quando o que os comentários dizem sobre o código difere do que o código realmente faz
  • Em geral, também conseguem inspecionar código de plataformas e configurações nas quais um analisador tradicional não conseguiria ser executado
  • Eles “conhecem” detalhes de bibliotecas e APIs de terceiros, permitindo detectar mau uso ou suposições erradas
  • Eles “conhecem” os detalhes dos protocolos implementados pelo curl, podendo apontar trechos em que o código parece violar ou contradizer a especificação do protocolo
  • Em geral, fazem bem o trabalho de resumir e explicar defeitos, algo que pode ser tedioso e difícil para analisadores tradicionais
  • Também podem gerar e sugerir patches para os problemas encontrados, embora esses patches normalmente não sejam correções 100% completas

Detalhes do relatório do Mythos

  • O relatório do Mythos concluiu que havia 0 vulnerabilidades de segurança de memória
  • Em termos metodológicos, essa revisão foi uma análise conduzida manualmente com uso de subagentes de LLM para leitura paralela de arquivos
  • Antes do registro final, todos os achados candidatos foram revalidados na sessão principal por meio de inspeção direta do código-fonte
  • O mapeamento de CVEs e busca por variantes foi construído a partir do vuln.json do próprio curl
  • Nenhuma ferramenta SAST automatizada foi usada
  • Esse resultado é consistente com o fato de o curl ser uma das bases de código em C mais auditadas e submetidas a fuzzing
  • A infraestrutura defensiva do curl vem fechando sistematicamente os tipos de bugs que normalmente geram resultados em bases desse porte
  • Entre os elementos defensivos estão dynbuf com limites restritos, curlx_str_number com valores máximos explícitos em todo parsing numérico, curlx_memdup0 com proteção contra overflow, imposição de strings de formato CURL_PRINTF, limites de tamanho de resposta por protocolo e limite de linha de 64 KB em pingpong
  • A cobertura inclui todos os protocolos menores, todos os parsers de arquivo, caminhos de verificação de todos os backends TLS, HTTP/1·2·3, toda a profundidade de FTP, mprintf, x509asn1, DoH, todos os mecanismos de autenticação, codificação de conteúdo, reuso de conexão, cache de sessão, ferramenta CLI, código específico de plataforma e até a cadeia de suprimentos de CI e build

A IA encontra novamente tipos de erro já existentes

  • Ferramentas de IA estão encontrando tipos de erro comuns e já estabelecidos, conhecidos há tempos, apenas descobrindo novas instâncias
  • Até agora, a IA não reportou tipos de vulnerabilidade completamente novos nem categorias inéditas de vulnerabilidade
  • A IA não está reinventando a segurança dessa forma
  • Ainda assim, ela está escavando mais problemas do que qualquer ferramenta anterior

A busca por defeitos ainda não acabou

  • Este resultado não representa a última descoberta ou o último relatório de bugs
  • Mesmo naquele momento, relatórios adicionais sobre problemas suspeitos já estavam chegando de pesquisadores de segurança
  • As ferramentas de IA continuarão melhorando, e pesquisadores podem encontrar formas novas e diferentes de promptar as IAs atuais para descobrir ainda mais problemas
  • A expectativa é que o curl continue recebendo escaneamentos repetidos com o Mythos e outras IAs, até que realmente não surjam mais novos problemas

2 comentários

 
GN⁺ 2 시간 전
Comentários do Hacker News
  • Citação: “Não dá para chegar a outra conclusão além de que grande parte do hype em torno desse modelo foi principalmente marketing. Não vi evidência de que essa configuração encontre problemas em um nível especialmente mais alto ou de forma mais sofisticada do que ferramentas anteriores ao Mythos. Talvez seja um pouco melhor, mas não parece bom o bastante para provocar uma mudança significativa na análise de código”
    Isso lembra a todos que a concorrência nessa área é feroz e que há muito marketing, explícito ou sutil, misturado nisso tudo

    • Não chega a ser surpreendente que a Anthropic use marketing para convencer as pessoas de que seu modelo é mais avançado, melhor construído, que a IA é uma ameaça e que só eles têm a resposta
      Falando mais seriamente, até agora vi poucos sinais de que o Mythos seja mais do que um Opus com acessórios de análise de código voltados para segurança. Ainda assim, o ponto mais importante, tirando o exagero publicitário, é que já é possível encontrar esse tipo de bug automaticamente
      Fico curioso sobre a taxa de erro da detecção. Se 90% estiver errado e só estivermos ouvindo os casos que servem para marketing, isso não significa muita coisa
    • É mais ou menos o resultado esperado, mas a grande pista já estava no fato de que ferramentas existentes baseadas em LLM já vinham sendo usadas em codebases amplamente auditadas
      Então o marketing da Anthropic pode até ser exagerado, mas, para começo de conversa, já não restava muita coisa, e o texto menciona isso
      É difícil julgar se isso representa um grande avanço para outros tipos de projeto, mas fica claro que todos já deveriam estar usando ferramentas de revisão de código com IA para auditorias de código existente, e na prática nem todos estão fazendo isso
    • curl não é um bom ponto de referência. É uma das codebases mais vasculhadas que existem, e as práticas de teste de segurança também são muito sólidas
      Pesquisadores que usam modelos parecidos com o Mythos, embora não idênticos, já tiveram tempo de sobra para reportar bugs até agora. O Daniel pode estar certo ao dizer que o Mythos não foi uma ferramenta que mudou o jogo para o curl, mas em quase qualquer outra codebase as condições são diferentes. O verdadeiro marketing talvez seja justamente a humildade dele em relação à maturidade do curl
    • A Mozilla está fazendo marketing para a Anthropic?
      Como parte de uma colaboração contínua com a Anthropic, tivemos a oportunidade de aplicar uma versão inicial do Claude Mythos Preview ao Firefox. O lançamento do Firefox 150 desta semana inclui correções para 271 vulnerabilidades identificadas nessa avaliação inicial
      À medida que essa capacidade chega a mais defensores, muitas equipes estão passando pela mesma vertigem que sentimos quando os primeiros resultados começaram a ficar claros. Mesmo um único bug desses em um alvo tão consolidado já teria sido alerta vermelho em 2025, então ver tantos de uma vez faz a gente parar para pensar se dá mesmo para acompanhar
      https://blog.mozilla.org/en/privacy-security/ai-security-zer...
    • É bem possível que o hype tenha sido principalmente marketing
      Outra possibilidade é que o curl seja seguro o bastante e simplesmente houvesse muito menos coisas para encontrar do que em outros projetos
  • Concordo com a frase “um evento de marketing incrivelmente bem-sucedido”. A Anthropic mandou bem
    Chegou até a CISOs de pequenas organizações semiestatais na Holanda, que entraram em leve pânico com o anúncio de um tsunami de vulnerabilidades vindo junto com o Mythos
    Isso me rendeu mais orçamento e prioridade no conselho. Não se deve desperdiçar um bom susto de marketing

    • Não concordo com “não há tsunami à vista”. No Firefox houve mais de 100 bugs, em mais projetos open source também, vulnerabilidades antigas de execução remota de código em OpenBSD/Linux que nunca tinham sido vistas antes, e até no próprio Linux apareceram algumas elevações locais de privilégio em apenas 2 ou 3 semanas
      O que parece estar acontecendo não é pânico de marketing, mas um aumento repentino de divulgações de vulnerabilidades de alta qualidade e baixo índice de falso positivo. Dá a sensação de que estamos percorrendo rapidamente, em poucas semanas, o equivalente a anos de relatórios de bugs de alta qualidade
    • A Anthropic está arruinando rapidamente a boa vontade dos clientes repetindo o mesmo truque. Pessoalmente, acho um marketing horrível
      Há uma diferença total entre uma empresa pesquisar as ameaças de cibersegurança de LLMs em geral e desviar a discussão para “nosso novo modelo é poderoso demais”. É pegajoso e desagradável
    • Ele explica em detalhes que o curl foi lapidado do ponto de vista de engenharia de software quase até o limite. Você realmente acha que a maior parte do código foi polida nesse nível?
  • Se um agente de IA encontrou 0 bugs em algum utilitário de software, por que isso deveria significar que esse agente de IA é ruim para encontrar bugs?
    E se realmente houver 0 bugs?
    A expectativa de que “5 problemas pareceram nada para nós, que esperávamos uma lista extensa” pode simplesmente não bater com a realidade. Mas isso não significa necessariamente que a capacidade do Mythos seja menor do que o alegado. O curl pode ser apenas uma ferramenta bem endurecida, que no estado atual não tem muitas vulnerabilidades de segurança

    • O autor também considerou esse mesmo ponto sobre os bugs que ainda restam
      “Mais coisas para encontrar. Esses não são, de forma alguma, os últimos bugs que eles encontrarão ou reportarão. Enquanto eu escrevia o rascunho deste post, recebi mais relatórios de pesquisadores de segurança sobre problemas suspeitos. As ferramentas de IA vão melhorar, e os pesquisadores podem encontrar formas novas e diferentes de prompting para fazer as IAs atuais encontrarem mais coisas. Ainda não chegamos ao fim. Espero que possamos continuar executando varreduras no curl com Mythos e outras IAs repetidamente, até realmente não conseguirmos mais encontrar novos problemas”
      Faz sentido. Supor que só restava exatamente 1 descoberta realmente relevante, que por acaso foi encontrada apenas pelo Mythos no momento do lançamento do Mythos, enquanto outros projetos estavam recolhendo rapidamente todas as descobertas até pouco antes disso, exige uma coincidência considerável. É possível, mas não é o ponto de partida mais seguro para levantar dúvidas
  • Não tem como deixar de ver o curl como uma ferramenta relativamente simples e bem delimitada por natureza. Basta comparar com sistemas operacionais, navegadores, bancos de dados ou a codebase de uma empresa bilionária
    Faz algum sentido que Mythos/ChatGPT 5.5 se saia muito melhor em complexidades que o curl não tem. O curl até tem muitos recursos como “cliente para qualquer coisa”, mas sua complexidade ainda é várias ordens de magnitude menor do que a de outros softwares dos quais dependemos

    • O curl é muito mais complexo do que as pessoas imaginam. A maioria só o conhece como uma ferramenta de linha de comando para chamar endpoints HTTP(S) e imprimir a saída, mas na prática ele suporta quase todo protocolo de transferência de arquivos e é uma biblioteca projetada para processos de longa duração
      Justamente por pensar em processos longos, ele usa todo tipo de técnica possível para fazer pipeline e reutilizar conexões e recursos. Também tem APIs assíncronas para poder ser integrado a event loops existentes
      Navegadores e bancos de dados são mais complexos? Muito provavelmente sim. Eles resolvem problemas realmente enormes. Mas o curl com certeza é mais complexo do que a maior parte do código de aplicação que o utiliza
    • Concordo que é uma ferramenta relativamente básica, mas, como o texto diz, o tamanho do código é maior que Guerra e Paz. Nessa escala, ainda há espaço de sobra para surgirem vulnerabilidades de segurança
    • Citando o texto: “o curl atualmente tem 176.000 linhas de código C, excluindo linhas em branco. O código-fonte é composto por 660.000 palavras, o que é 12% mais palavras do que toda a edição em inglês do romance Guerra e Paz”
      “O curl está instalado em mais de 20 bilhões de instâncias. Ele roda em mais de 110 sistemas operacionais e 28 arquiteturas de CPU. Roda em todos os smartphones, tablets, carros, TVs, consoles de videogame e servidores do planeta”
      É difícil chamar isso de simples ou bem delimitado. A maioria dos sistemas operacionais e navegadores nem roda em carros ou TVs
  • A conclusão de que “não é particularmente perigoso” não parece decorrer tão bem assim. Como foi mencionado, o curl já foi exaustivamente analisado com todas as ferramentas disponíveis, e a maior parte do software não chega nem perto disso

    • Mas o Mythos está sendo vendido no marketing não como uma ferramenta que faz um pouco melhor o que as ferramentas existentes já fazem, e sim como uma revolução
    • O Mythos ou é perigoso ou não é. Aqui, perigoso está sendo usado no sentido de “encontra muito mais vulnerabilidades do que as ferramentas disponíveis conseguem encontrar”
      O Mythos encontrou apenas uma vulnerabilidade adicional, e x+1 não é muito maior que x, então, por essa definição, a conclusão é que o Mythos não é perigoso
    • Sim, mas isso não é um julgamento do Mythos em comparação com outros modelos?
      Se for esse o caso, a conclusão ainda se sustenta. A “maior parte do software” não foi analisada nem de longe tanto quanto o curl, nem por outras ferramentas nem por outros modelos. Se essas ferramentas conseguem produzir resultados quase iguais aos do Mythos, fica difícil dizer que o Mythos seja especialmente perigoso
    • Esse “não é particularmente perigoso” não era sobre as vulnerabilidades encontradas? Imagino que eles saibam bem o que consideram baixa gravidade
    • O curl está recebendo atualmente um volume recorde de relatórios de bugs/vulnerabilidades de alta qualidade. É uma mudança bem brusca em relação às antigas enxurradas de baixa qualidade, então isso não significa que não haja mais nada a encontrar
      Muitos, ou talvez a maioria, deles parecem ter sido encontrados por especialistas humanos com ajuda de ferramentas de IA, mas, se o Mythos fosse realmente revolucionário, ele deveria ser capaz de encontrar esse tipo de problema por conta própria
      https://daniel.haxx.se/blog/2026/04/22/high-quality-chaos/, com link no texto original
  • A parte “a única vulnerabilidade confirmada deverá virar um CVE de baixa gravidade e será divulgada em conjunto com a próxima versão do curl 8.21.0, prevista para o fim de junho” chama atenção
    Ainda é difícil compreender o nível de qualidade e refinamento colocado no cURL. É um exemplo perfeito de algo tão bem feito que as pessoas mal pensam duas vezes sobre isso

    • É simples. Mostra o que é possível quando se aplica um alto padrão de qualidade a cada linha de código que é commitada, revisada e mesclada, independentemente da linguagem de programação
      Mas, numa era de corrida para o fundo do poço, terceirização a preço de banana e agora geração de código com LLM, a maioria das empresas não vai ligar para esse nível de qualidade, a menos que haja responsabilização clara
    • Curl e SQLite são meus exemplos favoritos de “qualquer coisa” feita com engenharia de verdade e testada com rigor. É quase filosófico
      Os requisitos de contribuição desses projetos exigem esse rigor, e os mantenedores fazem questão de mantê-lo. O que torna isso possível é documentação que não está sob carga, ou seja, documentação que não é o código do projeto. Isso faz lembrar o experimento mental de Einstein levando a projetos concretos como o GPS, ou a crença de Descartes de que todo problema pode ser resolvido com pensamento racional
    • É irônico fazer algo tão bem construído e, no fim, as pessoas usarem curl ... | bash sem sentir problema algum. Depois escapam com expressões como “modelo de ameaça”
      Eu passo o curl-bash e uso um instalador de pacotes assinado criptograficamente
  • Sei que o hype em torno do Mythos faz parte do marketing da Anthropic, mas, para uma codebase altamente revisada, não é possível que realmente não haja exploits de segurança relevantes no estado atual?
    O fato de não ter encontrado nada não é necessariamente evidência contrária. Especialmente se outras ferramentas já identificaram centenas de vulnerabilidades antes. Agora parece estar totalmente esmiuçado

  • Marketing sempre entra no meio, e as pessoas precisam saber enxergá-lo no contexto
    Além disso, o curl é um projeto open source, relativamente pequeno, mas central, conhecido e usado em toda parte. Tirando bibliotecas de imagem, ferramentas como curl, sudo, su e passwd também seriam meus primeiros alvos
    Ainda não se sabe absolutamente nada sobre o que o Mythos realmente consegue fazer. O que um modelo de 10 trilhões de parâmetros significa em termos de custo e benchmark?
    Ainda assim, se os LLMs começaram a ficar muito melhores do que humanos para encontrar esse tipo de problema há cerca de meio ano, em algum momento todos vão ter de encarar o problema que vinham ignorando. Hoje em dia é preciso adicionar LLMs ao arsenal de varredura de segurança, e isso precisa ser levado a sério
    Mesmo no pior caso, dá para usar o marketing da Anthropic para dizer que isso agora é obrigatório e que alguma coisa mudou

    • Sobre a pergunta “o que um modelo de 10 trilhões de parâmetros significa em termos de custo e benchmark?”, para mim isso significa que chegamos ao topo da curva em S dos efeitos de escala
      Se, nesse tamanho, a ferramenta não for visivelmente melhor, então certamente já entrou na faixa de retornos decrescentes
    • O fato de “ainda não se saber absolutamente nada sobre o que o Mythos consegue fazer” é intencional. Ainda assim, basta pensar no que as pessoas já acreditam que ele consegue fazer
    • Essa ideia de que “LLMs ficaram muito melhores do que humanos para encontrar esse tipo de problema” me faz revirar os olhos. Analisadores estáticos comuns já superam humanos em certas tarefas mecânicas há décadas, e ser melhor do que humanos em tarefas mecânicas específicas não significa tanta coisa assim
      O que há de novo e interessante é o tipo de “bug nebuloso” potencial que, como o texto explica, um LLM pode identificar. Por exemplo, quando o código não bate com o que o comentário descreve, quando uma biblioteca de terceiros é usada de forma incomum, quando o código e o protocolo implementado não se alinham, ou quando algo simplesmente parece estranho e merece que alguém investigue melhor. Isso preenche uma lacuna na caixa de ferramentas tradicional de debugging, mas não deve substituí-la
  • Do meu ponto de vista, a mensagem em torno do Mythos é que ele dá a qualquer pessoa com acesso a expertise de especialistas de elite em segurança e de especialistas de primeira linha em linguagens, protocolos e código
    O risco estava em dar esse acesso ao mundo inteiro antes que os defensores tivessem acesso ao mesmo nível de expertise
    O curl está no centro de tudo, então vem sendo examinado há anos por especialistas em segurança, protocolos e linguagens. O fato de o Mythos ter encontrado alguma coisa é interessante, mas não é sinal de que tudo não passe de hype de marketing e de que não haja perigo
    Dá para assumir que 99,99% dos projetos não são tão seguros quanto o curl. Tanto faz se são open source ou código fechado. LLMs vão descompilar e explorar projetos fechados com boa vontade. Se um projeto não passou por fuzzing e não foi revisado por ferramentas de IA já existentes e por especialistas, já é de se esperar que ele possa ser comprometido. Isso já vale com as ferramentas atuais, e algo como o Mythos só amplia o acesso a essas capacidades para um público maior com menos especialização

    • Concordo. A Anthropic nunca alegou desempenho sobre-humano, e sim velocidade e escala
      O fato de não ter encontrado muitas novas vulnerabilidades em software já muito estudado não diz nada sobre o risco geral de uso indevido perigoso
  • Soa como: “o curl é uma das codebases em C mais submetidas a fuzzing e auditoria que existem. Teve OSS-Fuzz, Coverity, CodeQL e várias auditorias pagas. É difícil encontrar algo nos hot paths de HTTP/1, TLS e no núcleo do parsing de URL”
    Essa formulação parece sugerir menos que o LLM tentou e falhou, e mais que desistiu de tentar. Já vi o Claude fazer isso com frequência quando você não insiste para que ele se desafie sozinho, então fico curioso sobre o que de fato aconteceu aqui

 
GN⁺ 3 시간 전
Opiniões do Lobste.rs
  • Visto isoladamente, talvez isso não seja tão surpreendente, mas este resultado parece precisar ser entendido como: “depois que os modelos anteriores saíram, isso foi atacado quase todos os dias e, em uma única execução, encontrou um problema de segurança em um dos aplicativos mais revisados que existem”

    • Continuar rodando “analisadores estáticos de código comuns, usar as opções de compilador mais rigorosas e fazer fuzzing por anos” é algo que, em outros lugares, quase ninguém faz tanto quanto se imagina
      Talvez agora tenhamos de nos preparar para um período sombrio em que a segurança vai diminuir ou desaparecer até que tudo seja reescrito
    • É verdade que LLMs ficaram bons em encontrar vulnerabilidades, mas não sei por que descrevem o curl como um dos aplicativos mais auditados que existem
      O curl teve um programa de bug bounty e atraiu alguma pesquisa, mas o resultado disso também foi o Daniel acabar soterrado por denúncias de lixo geradas por IA. Seja em pesquisa pública ou privada de vulnerabilidades, nunca foi um alvo de interesse de primeira linha
      Não entra na categoria de “aqui não se encontra nada de jeito nenhum”, especialmente se for possível colocar grandes recursos computacionais quase subsidiados no esforço
    • A vulnerabilidade também é de baixa gravidade
      Segundo o post do blog, “a única vulnerabilidade confirmada deve se tornar um CVE de baixa gravidade, a ser divulgado junto com o próximo lançamento do curl 8.21.0 previsto para o fim de junho”
      Também diz que houve 4 falsos positivos
  • “No fim, me ofereceram que outra pessoa com acesso ao modelo poderia executar por mim a varredura e a análise do curl com o Mythos e me enviar um relatório. Para mim, essa diferença não importava tanto. De qualquer forma, eu não teria muito tempo para explorar vários prompts e me aprofundar.”
    É exatamente assim que agem quando colocam para rodar uma máquina de hype que entrega menos do que promete: “Use o nosso negócio! Não, quer dizer, usar diretamente não. A gente faz por você!” E por trás estão rodando métodos tradicionais e caros
    Não sei se foi isso que aconteceu desta vez, mas acho que a chance não é pequena o bastante para ser ignorada. Fico curioso sobre quem mais foi abordado para usar o Mythos, mas na prática não pôde usar o Mythos e só recebeu o resultado

    • Talvez simplesmente tenham comprado uma vulnerabilidade do mercado negro e apresentado como se o Mythos a tivesse encontrado. Aí seria só um ponto de dado cuspido por IA
      Pode até ser que a maioria dessas descobertas sejam fraquezas discutidas em fóruns obscuros que mantenedores raramente frequentam
      Isso não quer dizer que IA não possa tornar software mais seguro. Mas, se as empresas de IA escondem demais as cartas, fica impossível saber o que é real
    • Fico curioso se também procuraram explicações alternativas que não confirmem as ideias prévias deles sobre a Anthropic
  • Há 3 meses vi essa pessoa no palco anunciando que ia encerrar o programa de bug bounty por causa das denúncias de lixo geradas por IA
    Fico me perguntando se a ferramenta melhorou tudo isso mesmo, ou se, com o incentivo financeiro desaparecendo, as pessoas passaram a gastar mais tempo separando vulnerabilidades reais do lixo

  • No Mastodon, esse tipo de resultado é ótimo para fazer o viés de confirmação disparar
    Mas, tirando o viés de confirmação, isso não parece adequado para generalizações. Ainda assim, é bom que pontos de dado como este sejam publicados

    • Não sei o quanto isso se aplica ao Mastodon como um todo, mas ao meu redor o pessoal é tão anti-IA que até gente experiente joga um link do GitHub na interface de chat do Claude e tenta mostrar que é inútil
      Só que não é uma ferramenta para ser usada assim. Mesmo quando você tenta mostrar resultados às pessoas, elas só querem apontar casos de fracasso e rir, então fica muito difícil
  • Seria bom ver mais textos assim
    O fato de no curl ter aparecido só um problema de baixa gravidade é encorajador, mas ao mesmo tempo continua sendo um caso único. Também é possível que o curl simplesmente esteja mais maduro do que outras bibliotecas centrais

  • “Parecia que o mundo inteiro tinha enlouquecido. Seria o fim do mundo como o conhecíamos? Certamente foi um truque de marketing surpreendentemente bem-sucedido.”
    Não tenho interesse nesse tipo de estilo. Eu gostaria de ver pensamento claro e raciocínio sólido. É preciso interpretar com boa-fé
    Sem boas evidências e raciocínio, dizer que o Glasswing foi um “truque de marketing” é especulação. Entendo o ceticismo saudável, mas ceticismo saudável também deve se voltar para dentro. Com base em quê se pode ter tanta certeza?
    Se algo foi um truque, o que isso quer dizer? Quando leio a palavra “truque”, ela carrega a nuance de que havia intenção de manipular. Quem pode falar de forma mais direta sobre intenção são “as pessoas que estavam naquela sala”. O resto, no máximo, faz previsões, mas gente demais nem trata essas previsões com seriedade e já as afirma como se fossem fatos
    Se você não estava lá, é mais sensato explicar seu raciocínio do que fazer afirmações categóricas
    Os incentivos apontam em várias direções. Não estou vendo isso de forma ingênua. De um autor sério, eu esperaria respeito pela inteligência do leitor e pelo desejo de entender o mundo
    É comum um especialista de uma área entrar com excesso de confiança em outra área e cometer erros. Em geral, e especialmente sobre o status do projeto que mantém, com base em quê devemos presumir que um mantenedor do curl tenha bons padrões epistemológicos? Muitas vezes as pessoas têm um forte incentivo para não querer que máquinas façam algo melhor do que elas. Não estou dizendo que o Mythos já esteja nessa posição. Suspendo juízo quanto a isso. Mas, olhando apenas para o raciocínio mostrado neste texto, não consigo ficar impressionado com o autor

    • Não concordo que dizer que o Glasswing foi um truque de marketing seja precipitado. Pelo que vem logo depois da frase “truque de marketing bem-sucedido”, achei que foi uma crítica justa
      “Como parte do projeto Glasswing, a Anthropic também ofereceu, por meio da Linux Foundation, acesso a seus modelos de IA mais recentes para ‘projetos de código aberto’. A Linux Foundation fez a parte operacional disso pelo projeto Alpha Omega, e seus representantes entraram em contato comigo. Como desenvolvedor principal do curl, recebi a oferta de acesso ao modelo mágico e aceitei com prazer. Claro que eu queria ver o que ele conseguiria encontrar no curl.”
      Minha impressão ao ler o texto inteiro foi que o autor não estava dizendo que o Glasswing era apenas um truque de marketing, mas que, como truque de marketing, foi claramente um sucesso, e quanto ao restante ainda não está decidido
      O restante do texto, depois do trecho citado, conclui que houve mais do que marketing puro e simples, e que “ainda é muito bom”. A ideia era que isso provavelmente ainda pode ser útil, mesmo que não esteja à altura do hype de marketing ofegante que vimos até agora
    • Pouco tempo depois, a OpenAI lançou uma nova versão de modelo seguindo seu padrão regular de upgrades e mostrou capacidade semelhante nessa área, mas sem muita fanfarra nem agitação
      Era só o GPT-5.5. Nesse sentido, acho que esconderam o Mythos por causa do chamado risco talvez tenha sido uma forma de concentrar atenção em casos de uso de segurança e criar nova demanda