- Claude Opus 4.6 encontrou 22 vulnerabilidades no Firefox em colaboração com a Mozilla, das quais 14 foram classificadas como de alto risco
- Isso demonstrou que um modelo de IA pode detectar rapidamente vulnerabilidades zero-day em softwares complexos, com correções incluídas na versão Firefox 148.0
- O Claude analisou milhares de arquivos em áreas de código, incluindo o motor JavaScript, e enviou 112 relatórios; a Mozilla realizou correções com base neles
- Foi confirmado que a IA tem grande capacidade de detectar vulnerabilidades, mas capacidade limitada para escrever exploits (código de ataque) reais
- A Anthropic apresentou um modelo colaborativo de pesquisa em segurança baseada em IA e defendeu o fortalecimento da segurança com foco nos defensores por meio da colaboração com o ecossistema open source
Visão geral da colaboração com a Mozilla
- O Claude Opus 4.6 encontrou 22 vulnerabilidades no Firefox em duas semanas de análise, e a Mozilla classificou 14 delas como de alto risco
- Isso corresponde a cerca de 20% das vulnerabilidades de alto risco corrigidas no Firefox em 2025
- As correções foram incluídas na versão Firefox 148.0 e distribuídas a centenas de milhões de usuários
- A Mozilla validou os relatórios da Anthropic e compartilhou critérios e processos de bug report, estabelecendo um sistema colaborativo de verificação
- Essa colaboração é apresentada como um exemplo de modelo de cooperação entre pesquisadores de segurança baseados em IA e mantenedores
Processo de detecção de vulnerabilidades com modelos de IA
- Para realizar testes mais realistas além do benchmark CyberGym, a Anthropic construiu um dataset de CVEs do Firefox
- O Firefox é um projeto open source complexo e altamente seguro, o que o torna um alvo adequado para validar a capacidade de detecção da IA
- Depois de reproduzir CVEs passados, o Claude tentou detectar novas vulnerabilidades na versão mais recente
- Nos primeiros 20 minutos, encontrou uma vulnerabilidade de memória Use After Free e, após validação independente, reportou-a à Mozilla
- Em seguida, o Claude analisou mais de 6.000 arquivos C++ e enviou 112 relatórios únicos
- A maior parte dos problemas foi corrigida no Firefox 148, e alguns devem ser resolvidos em versões futuras
Experimento de exploit de vulnerabilidades
- Para avaliar o limite superior da capacidade de segurança do Claude, foi conduzido um experimento para verificar se as vulnerabilidades encontradas poderiam ser convertidas em código de ataque real
- Foram realizados centenas de testes e gastos cerca de US$ 4.000 em custos de API
- Como resultado, apenas 2 exploits tiveram sucesso, mostrando que a capacidade de geração de ataques é inferior à capacidade de detecção
- Os exploits bem-sucedidos funcionaram apenas em ambiente de teste, com os recursos de segurança sandbox do navegador removidos
- O sistema de defesa em múltiplas camadas do Firefox pode mitigar esse tipo de ataque
- Com esse experimento, a Anthropic alertou para a possibilidade de a IA gerar ferramentas de ataque automaticamente
Boas práticas em pesquisa de segurança baseada em IA
- Por meio de pesquisas com um patching agent, a Anthropic está desenvolvendo formas de LLMs realizarem correção e verificação de bugs
- Um instrumento auxiliar chamado Task verifier é usado para validar os resultados da IA em tempo real
- Testes automáticos verificam se a vulnerabilidade foi removida e se a funcionalidade do programa foi mantida
- Os três componentes centrais dos relatórios em que a Mozilla confiou foram os seguintes
- caso de teste mínimo para reprodução
- Proof-of-Concept detalhado
- código de patch candidato
- Recomenda-se aos pesquisadores que, ao enviar relatórios de vulnerabilidade baseados em LLM, apresentem também evidências de verificabilidade e reprodutibilidade
Perspectivas futuras e necessidade de reforço da segurança
- O Claude Opus 4.6 também encontrou vulnerabilidades em projetos importantes, como o kernel Linux, além do Firefox
- Atualmente, na IA, a capacidade de detectar e corrigir supera a capacidade de gerar exploits, o que favorece os defensores
- No entanto, considerando a velocidade de evolução dos modelos, há possibilidade de a diferença na capacidade ofensiva diminuir rapidamente
- A Anthropic está oferecendo a pesquisadores e mantenedores recursos de detecção de vulnerabilidades e patching por meio do Claude Code Security
- A empresa incentiva os desenvolvedores a aproveitarem essa janela de oportunidade para reforçar a segurança, e planeja:
- colaboração na busca por vulnerabilidades
- desenvolvimento de ferramentas para classificação de bug reports
- expansão de recursos de sugestão automática de patches
2 comentários
Mozilla Foundation Security Advisory 2026-13
Isso é realmente impressionante.
Parece ser mais um caso que nos lembra, mais uma vez, o quão importantes são casos de teste rigorosos.
Comentários no Hacker News
Se você é responsável pela manutenção da segurança de um projeto open source, vale pedir uma auditoria de segurança com o Claude Code
Pode ser difícil em projetos de grande escala como o Firefox, mas na maioria dos projetos o custo em tokens fica na faixa de US$ 3
É bem provável que atacantes já tenham feito esse tipo de auditoria, então deixar de fazer por conta própria já não é mais uma postura responsável
Ao auditar a base de código principal do Zulip, pediram ao modelo para revisar os próprios resultados, e nesse processo a maior parte dos falsos positivos (false positives) foi eliminada
Depois disso, os problemas restantes praticamente desapareceram em uma nova auditoria ao adicionar comentários no código para deixar mais clara a intenção do modelo de segurança
Pedir “faça em poucos segundos o que levaria uma semana” é irrealista
O resultado pode parecer plausível, mas não corresponder à realidade
Se você tratar a IA como um estagiário, não vai se decepcionar — você confiaria a um estagiário uma auditoria de segurança de um programa inteiro e gigantesco?
Em alguns casos funciona muito bem, mas em outros é totalmente inútil
A diferença parece depender, no fim, da qualidade da engenharia de contexto e do test harness
Este caso também foi interessante, mas eu gostaria de ver explicações mais concretas
Eu também tornei um projeto open source recentemente, e um usuário do Reddit rodou uma auditoria de segurança completa com Claude e encontrou 15 vulnerabilidades
Havia injeção em FTS, injeção por wildcard em LIKE, ausência de autenticação de API, falhas de privacidade e várias outras coisas que eu deixei passar
O mais impressionante foi como os resultados eram sistemáticos — com classificação de severidade, caminho do arquivo e número da linha, e até apontando divergências entre a documentação e o código real
Em especial, a análise da “diferença entre a especificação e a realidade” foi a parte mais útil
O verdadeiro valor de auditorias de segurança com LLM não está em encontrar um novo zero-day, mas em substituir as checagens repetitivas e minuciosas que humanos tendem a pular por preguiça
Pouca gente entende a complexidade dos problemas de vulnerabilidade em navegadores como o Firefox
Só transformar um UAF simples em shellcode wasm já pode levar dias
A corrida por capacidades cibernéticas com IA ainda está tranquila, mas acho que isso vai mudar ainda este ano
Eu também, como a Anthropic, dei ao Claude uma VM e um validador e pedi geração de exploit, e ele funcionou surpreendentemente bem no ambiente kctf-eval
Ainda assim, continua incerto o que exatamente o modelo “entende” de fato, ou se ele apenas imita ajustando-se ao sinal de recompensa
Achei interessante que a Mozilla tenha atualizado o aviso de segurança
Eu estava curioso sobre quem tinha encontrado 22 vulnerabilidades em uma única release, e só agora isso foi esclarecido
Se fosse só algo como derrubar um arquivo, não seria uma grande ameaça, mas algo como roubo de dados de sessão é bem mais interessante
É estranho que os detalhes concretos dos bugs não tenham sido mencionados
Quero saber se eram apenas edge cases ou problemas realmente relevantes
LLMs encontram bem padrões de falha conhecidos, mas isso nem sempre significa que sejam importantes
Não sou especialista em segurança, mas não parece algo que dê para descartar só com um “é LLM, então não é grande coisa”
Minha experiência usando agentes de IA foi mista
Eles foram úteis para expandir cobertura de testes, configurar fuzz testing e preparar ferramentas de análise estática
Mas houve casos em que afirmaram que algo era “muito seguro” mesmo quando o limite de segurança na prática nem existia
Detectam bem bugs locais, mas quase não encontram vulnerabilidades complexas que surgem da interação entre vários recursos
No fim, qualquer afirmação de segurança do modelo sempre precisa ser verificada
O valor desta abordagem está em fornecer casos de teste verificáveis
Isso é muito mais eficiente do que um simples relatório de análise
Antes fazia sentido dizer que “só pegam bugs locais”, mas a situação mudou com os SDKs agênticos
Se a cobertura já está alta, o que resta tende a ser uma área intrinsecamente difícil
Em especial, houve casos em que encontraram até vulnerabilidades de lógica de negócio
Bugs locais saltam aos olhos, mas limites de segurança incompletos costumam parecer suficientes no começo
O motivo de a Anthropic ter escolhido o Firefox é claro
Porque é um open source amplamente distribuído e um projeto com validação de segurança ativa
O Chromium usa o Gemini do Google, e o Safari tem uma cultura de desenvolvimento fechada, o que dificulta colaboração
Segundo o artigo da Anthropic, o exploit escrito pelo Claude só funcionou em ambiente de teste
Isso porque a funcionalidade de sandbox do navegador real havia sido removida
Portanto, a defesa em profundidade (defense in depth) do Firefox provavelmente teria mitigado esse ataque
O Chrome segue uma política semelhante
A documentação relacionada pode ser vista em Security Severity Ratings
Escapes de sandbox também são possíveis, então todo bug deve ser corrigido
Atacantes podem acumular esses zero-days parciais e depois combiná-los
O fato de esta correção reduzir esse risco é claramente um resultado de melhoria de segurança
Eu também deixo agentes de IA rodando à noite para escrever testes, e já tentei fazer o Claude usar verificação formal (formal verification)
Parece que a Anthropic adotou uma abordagem parecida
No futuro, pretendo adicionar prompts para automatizar testes de propriedade e fuzz testing
Acho que os problemas com que lido não exigem algo tão pesado, mas talvez eu esteja julgando errado
Um dia talvez exista um sistema automatizado de auditoria de segurança para projetos open source centrais, como o OSS-Fuzz do Google
A Anthropic já oferece acesso gratuito ao Claude para mantenedores de OSS
Com LLMs, também surgiu o problema de programas de bug bounty ficarem inundados de relatórios falsos, mas os modelos mais recentes já chegaram ao ponto de distinguir vulnerabilidades reais
Se você avaliar com modelos gratuitos ou baratos, a qualidade inevitavelmente vai parecer baixa
Em vez disso, dá para operar um programa de auditoria de segurança com LLMs avançados e garantir qualidade
Para salvar os bug bounties, talvez também desse para cobrar taxa de participação ou introduzir validação baseada em LLM
Link relacionado
Por exemplo, subir uma VM para que um agente execute testes de reprodução