O poderosíssimo AI de segurança da Anthropic, "Claude Mythos", será distribuído de forma limitada apenas a parceiros selecionados, em vez de ser lançado ao público
(simonwillison.net)A Anthropic decidiu não lançar o novo modelo Claude Mythos ao público em geral e, em vez disso, distribuí-lo apenas a parceiros de pesquisa em segurança selecionados por meio de um programa de prévia restrita chamado "Projeto Glasswing (Project Glasswing)". O motivo é simples: a capacidade desse modelo de detectar vulnerabilidades de cibersegurança é tão poderosa que, se for explorada de forma maliciosa, pode representar uma ameaça à infraestrutura global.
O que é o Claude Mythos?
O Mythos é um modelo de uso geral semelhante ao Claude Opus 4.6, mas com uma capacidade de pesquisa em cibersegurança esmagadoramente superior. A Anthropic já afirmou que esse modelo descobriu milhares de vulnerabilidades de alto risco, incluindo em todos os principais sistemas operacionais e navegadores web.
Alguns exemplos concretos de suas capacidades:
- Ao escrever um exploit para navegador web, ele criou um código de ataque complexo que encadeava quatro vulnerabilidades para escapar tanto do renderer quanto da sandbox do sistema operacional.
- Em um experimento para transformar uma vulnerabilidade do motor JavaScript do Firefox 147 em exploit, o Opus 4.6 teve sucesso 2 vezes em centenas de tentativas, enquanto o Mythos teve sucesso 181 vezes e, adicionalmente, conseguiu controle de registradores em outras 29 ocasiões.
Vulnerabilidades realmente descobertas
Nicholas Carlini, da Anthropic, disse o seguinte:
> "Encontrei nas últimas semanas mais bugs do que em toda a minha vida. No OpenBSD, encontrei um bug que existia havia 27 anos, uma vulnerabilidade capaz de derrubar um servidor apenas com o envio de alguns pedaços de dados."
Foi confirmado que a vulnerabilidade em OpenBSD foi corrigida em um patch de 25 de março de 2026.
Sinais de alerta no setor
Entre especialistas em segurança, o alarme sobre a capacidade da AI de encontrar vulnerabilidades já vinha soando.
- Greg Kroah-Hartman, do kernel Linux: "Algo mudou por volta de um mês atrás. Agora está surgindo uma enxurrada de relatórios reais de segurança gerados por AI, e a qualidade também é alta."
- Daniel Stenberg, do curl: "Os problemas de segurança relacionados a AI passaram de um 'tsunami de lixo de AI' para um 'tsunami de relatórios reais de segurança'. Estou gastando horas por dia só lidando com isso."
O que é o Projeto Glasswing?
Em vez de lançar o Mythos ao público, a Anthropic escolheu um modelo em que AWS, Apple, Microsoft, Google, Linux Foundation e outras organizações participam como parceiras para que possam primeiro encontrar e corrigir vulnerabilidades em seus próprios sistemas. Isso inclui US$ 100 milhões em créditos de uso e doações diretas de US$ 4 milhões para organizações de segurança de código aberto.
Opinião do autor
Simon Willison, autor do blog, apoiou a decisão de distribuição limitada ao afirmar que "dizer 'nosso modelo é perigoso demais' pode soar como marketing, mas neste caso essa cautela é plenamente justificável". Ele vê essa situação como uma "mudança tectônica" que exige uma resposta de todo o setor e expressou o desejo de que a OpenAI também se junte a essa iniciativa.
Implicações
A principal mensagem do texto é que a capacidade das AIs de encontrar vulnerabilidades de segurança já chegou a um nível que supera especialistas humanos. Esse é um dos riscos mais realistas que a AI pode trazer e tem grandes implicações para qualquer organização que opere infraestrutura.
Original: Simon Willison's Weblog, 2026.04.07
5 comentários
Trabalho com desenvolvimento de segurança mobile, e isso me parece um pouco assustador.
No lado dos apps financeiros, até agora a defesa vinha sendo desenhada partindo do pressuposto de que o atacante faria análise manual com Frida ou Ghidra. A profundidade da ofuscação e a lógica de detecção, no fim das contas, também eram baseadas no tempo que uma pessoa leva para analisar, mas ultimamente parece que esse pressuposto está começando a vacilar.
Não consigo apontar exatamente o quê, mas a velocidade é diferente. Dá a sensação de que a indústria de segurança vai mudar completamente...
Se realmente for desse nível, provavelmente também vai encontrar rapidinho vulnerabilidades de segurança em código desassemblado.
Eles chegaram a enviar um patch até para o ffmpeg, e ele foi aceito.
https://x.com/ffmpeg/status/2041612029459374511
Claro, deve ser por marketing, mas é aquilo que o ffmpeg sempre diz: "as outras empresas não enviaram", mas...
Pensando bem, o Sam Altman também se empolgou antes de o GPT-5 sair, então...
Parece que vão abrir isso para usuários do Max com cobrança adicional...