Project Glasswing: colaboração global para a segurança de software crítico na era da IA

(anthropic.com)

7 pontos por GN⁺ 22 일 전 | 2 comentários | Compartilhar no WhatsApp

Project Glasswing, com a participação de grandes empresas de tecnologia como Amazon, Apple, Google e Microsoft, é uma iniciativa colaborativa que usa IA para detectar e defender vulnerabilidades de segurança em softwares críticos no mundo todo
O modelo Claude Mythos 2 Preview da Anthropic desempenha um papel central e já encontrou milhares de vulnerabilidades de alta gravidade em sistemas operacionais e navegadores importantes
O Mythos Preview é capaz de detecção autônoma e geração de exploits sem intervenção humana, encontrando falhas latentes há décadas em OpenBSD, FFmpeg, kernel Linux e outros
A Anthropic fornecerá ao projeto US$ 100 milhões em créditos de uso do modelo e US$ 4 milhões em doações para organizações de segurança open source, que os parceiros usarão para detecção de vulnerabilidades, testes de segurança e avaliações de intrusão
O Glasswing tem como objetivo estabelecer padrões e diretrizes práticas de cibersegurança na era da IA e, no longo prazo, construir um sistema de segurança sustentável baseado em cooperação entre setor público e privado

Visão geral do Project Glasswing

Project Glasswing é um projeto global de colaboração em cibersegurança com participação de Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks e outras
O objetivo é usar IA, com base no modelo Claude Mythos 2 Preview da Anthropic, para detectar e defender vulnerabilidades de segurança em softwares críticos no mundo todo
O Mythos Preview encontrou milhares de vulnerabilidades de alta gravidade em sistemas operacionais e navegadores principais, com desempenho superior ao da maioria dos especialistas humanos
Para o projeto, a Anthropic fornecerá até US$ 100 milhões em créditos de uso do modelo e US$ 4 milhões em doações para organizações de segurança open source
O projeto é definido como o ponto de partida de uma colaboração de longo prazo para estabelecer padrões e diretrizes práticas de cibersegurança na era da IA

O ambiente de cibersegurança na era da IA

Softwares de infraestrutura crítica em finanças, saúde, energia, transporte e governo sempre contêm bugs e falhas de segurança
Com o avanço dos modelos de IA, o custo e o nível de especialização exigido para descobrir e explorar vulnerabilidades estão caindo rapidamente
O Claude Mythos Preview encontrou falhas de segurança antigas que não haviam sido descobertas em décadas de revisão humana e testes automatizados
Se essas capacidades de IA forem exploradas de forma maliciosa, a frequência e o poder destrutivo dos ciberataques poderão aumentar drasticamente, tornando-se uma ameaça à segurança nacional
Ao mesmo tempo, a mesma tecnologia pode se tornar uma ferramenta revolucionária de defesa, tornando essencial o fortalecimento da segurança com base em IA

Resultados do Claude Mythos Preview na detecção de vulnerabilidades

Nas últimas semanas, o Mythos Preview encontrou milhares de vulnerabilidades zero-day em todos os principais sistemas operacionais e navegadores web
O modelo detecta vulnerabilidades e desenvolve exploits de forma autônoma, sem intervenção humana
Principais descobertas
- OpenBSD: descoberta de uma vulnerabilidade existente havia 27 anos, uma falha capaz de derrubar sistemas remotamente
- FFmpeg: descoberta de uma vulnerabilidade existente havia 16 anos, um problema que não foi detectado mesmo após 5 milhões de testes automatizados
- Kernel Linux: confirmação da possibilidade de ataque de escalonamento de privilégios por meio do encadeamento de múltiplas vulnerabilidades
Todas as vulnerabilidades foram reportadas aos mantenedores dos respectivos projetos e já receberam patch
No benchmark CyberGym, o Mythos Preview alcançou 83,1%, enquanto o modelo anterior Opus 4.6 registrou 66,6%

Participação e avaliação dos parceiros

Cisco: enfatizou que a IA mudou de forma fundamental a urgência de proteger a infraestrutura de segurança e que os métodos tradicionais de fortalecimento já não são suficientes
AWS: analisa 400 trilhões de fluxos de rede por dia e está usando o Claude Mythos Preview para fortalecer a segurança baseada em código
Microsoft: afirmou que, no benchmark CTI-REALM, o Mythos Preview mostrou grande melhora em relação ao modelo anterior e está avançando na expansão da segurança baseada em IA
CrowdStrike: destacou que, com a IA, o intervalo entre a descoberta de vulnerabilidades e os ataques foi reduzido para minutos, reforçando a necessidade de implantar rapidamente capacidades defensivas com IA
Comunidade open source: por meio do Glasswing, ferramentas de detecção de vulnerabilidades baseadas em IA também serão fornecidas a mantenedores open source com equipes de segurança limitadas
JPMorganChase: ressaltou a importância de uma resposta conjunta do setor para fortalecer a resiliência cibernética dos sistemas financeiros
Google: oferecerá o Mythos Preview via Vertex AI e continua desenvolvendo ferramentas de segurança baseadas em IA (Big Sleep, CodeMender)

Desempenho técnico do Claude Mythos Preview

O Mythos Preview supera amplamente os modelos anteriores da Anthropic em capacidade de programação e raciocínio
Principais resultados de benchmark
- Melhorias de mais de 20% a 30% em relação ao Opus 4.6 em SWE-bench Verified/Pro/Multilingual e outros
- 92,1% no Terminal-Bench 2.0 (Opus 4.6 teve 77,8%)
- Sem uso de ferramentas: 56,8% vs 40,0%; com uso de ferramentas: 64,7% vs 53,1%
- No Humanity’s Last Exam: 86,9% vs 83,7%
- No BrowseComp, obteve pontuação mais alta usando 4,9 vezes menos tokens
A Anthropic afirmou que não há planos de distribuição pública do Mythos Preview e que pretende expandi-lo gradualmente no futuro por meio de modelos Claude Opus com proteções de segurança reforçadas

Próximos passos do Project Glasswing

Os parceiros planejam usar o Claude Mythos Preview para detecção de vulnerabilidades em sistemas críticos, testes black-box binários, segurança de endpoints e testes de invasão
A Anthropic fornecerá US$ 100 milhões em créditos de uso do modelo e, depois disso, o uso estará disponível por US$ 25 por 1 milhão de tokens de entrada e US$ 125 por 1 milhão de tokens de saída
Apoio a organizações de segurança open source
- US$ 2,5 milhões para Alpha-Omega e OpenSSF, da Linux Foundation
- US$ 1,5 milhão em doação para a Apache Software Foundation
- Mantenedores open source poderão acessar por meio do programa Claude for Open Source
- Em até 90 dias, será publicado um relatório sobre correções de vulnerabilidades e melhorias, e haverá desenvolvimento conjunto de diretrizes práticas de segurança para a era da IA
- Procedimentos de divulgação de vulnerabilidades
- Processos de atualização de software
- Segurança open source e da cadeia de suprimentos
- Ciclo de vida de desenvolvimento com foco em segurança
- Padrões setoriais regulados
- Sistemas automatizados de classificação e correção de vulnerabilidades
- A Anthropic está em consulta com o governo dos EUA e pretende apoiar a avaliação e mitigação dos impactos das capacidades cibernéticas baseadas em IA sobre a segurança nacional
- No longo prazo, o objetivo é uma estrutura em que uma entidade independente de terceiros, baseada em cooperação público-privada, gerencie continuamente projetos de cibersegurança em larga escala

2 comentários

edwardyoon 20 일 전

Como membro de uma das fundações mencionadas acima, acompanhei esse processo e senti um profundo ceticismo. Externamente, defendia-se uma "IA ética", mas internamente essa decisão foi tomada de cima para baixo, sem qualquer consenso da comunidade.

Com o acirramento dos conflitos geopolíticos, embora eu já não estivesse ativo havia muito tempo, achei que precisava dizer algo e abri uma discussão sobre ética, mas só houve evasão burocrática. Esta iniciativa não preserva os valores do open source; foi um caso em que uma aliança fechada de grandes capitais comprou de uma fundação open source a marca registrada de Responsible AI.

GN⁺ 22 일 전

Comentários do Hacker News

Quando dizem que hacking patrocinado por Estados de países como China, Irã, Coreia do Norte e Rússia ameaça a infraestrutura, eu penso, ao contrário, que o PRISM foi o programa estatal que mais impactou a vida civil. E senti que faltava um país nessa lista
- Eu acrescentaria mais dois países. Um é o país que recentemente teve o acesso aos modelos da Anthropic bloqueado, e o outro é o país que estava ocupado com o incidente das explosões de pagers
- Não é surpreendente que uma grande empresa de IA dos EUA não tenha classificado os próprios EUA como um Estado hostil
- Nos anos 2010, eu achava que a conectividade de rede ainda não era densa o bastante para causar danos reais dentro dos EUA. Mas agora o risco de guerra aumentou. Em tempos de paz, isso é apenas intimidação, mas em tempos de guerra pode levar a apagões
- Olhando para a situação atual, essa fala soa irônica
- Fico curioso sobre qual foi, na prática, o impacto do PRISM na vida civil
O anúncio da Anthropic pode ser exagero de marketing, mas mesmo que só metade seja verdade, a capacidade de encontrar vulnerabilidades já é impressionante. Se Apple ou Google aplicarem isso ao código-base de seus sistemas operacionais, a indústria de spyware comercial pode entrar em colapso. Eu achava que empresas como a NSO Group já usavam ferramentas automatizadas de caça a bugs, mas agora o equilíbrio do jogo talvez comece a se ajustar
- Se você assistir à apresentação em vídeo do pesquisador de segurança da Anthropic, Nicholas Carlini, verá que todos os demos foram feitos com o Opus 4.6
- A Apple já praticamente bloqueou invasões com memory tagging e o modo Lockdown. Melhorias de arquitetura, linguagens seguras e sandboxing são muito mais eficazes do que simplesmente corrigir bugs
- Se isso for verdade, a Anthropic está adotando uma estratégia para bloquear antecipadamente o risco de abuso. Parece uma medida preventiva para evitar má PR
- Se a Apple fechar todas as backdoors não intencionais, a tensão com os governos pode aumentar. Na carta aos clientes de 2016, a Apple rejeitou backdoors, mas o motivo de o FBI ter recuado no fim foi que encontrou outro caminho. Agora isso talvez não funcione mais
Ainda não há evidência de que essa IA seja melhor que fuzzing. Ela apenas encontrou bugs que o fuzzing deixou passar. Por outro lado, o fuzzing também pode encontrar coisas que a IA deixa escapar
- Métodos diferentes produzem resultados diferentes. Eu acho ideal usar linguagens memory-safe junto com analisadores estáticos. Só que ferramentas como o Astrée são caras demais, então sua adoção no mercado é baixa. Se LLMs passarem a ajudar com provas baseadas em lógica de Hoare, isso pode mudar o cenário
- Pelas apresentações de Carlini e de Heather Adkins, do Google (vídeo1, vídeo2), o fuzzing é tanto o ponto de partida da IA quanto seu complemento
- LLMs entendem restrições de protocolo como checksums e assinaturas, complementando áreas em que o fuzzing tem dificuldade. Parece provável que em breve surja um fuzzer integrado
- Na verdade, a IA também pode executar e otimizar o fuzzing diretamente
Li o system card do Claude Mythos da Anthropic (PDF), e esse modelo não será disponibilizado ao público em geral. Eles disseram que, só com a validação interna, já sentiram risco suficiente para conduzir uma revisão de alinhamento de 24 horas. O ponto interessante é que essa decisão não foi por causa da Responsible Scaling Policy.
- Os benchmarks são impressionantes. Mesmo sem ser perfeito, isso leva a ganhos reais de desempenho
- Parece que as empresas vão começar a sentir FOMO de ficar para trás na corrida de segurança se não cooperarem com a Anthropic
- Se for realmente um modelo perigoso, 24 horas de revisão me parecem pouco
- Na prática, a falta de recursos computacionais pode ser uma razão maior. O Mythos provavelmente ainda carrega os mesmos problemas de alinhamento da era do GPT-4.1
- Gostei de ler o conto "Sign Painter" escrito pelo Mythos. Foi uma história que expressou bem o artesanato humano e a criatividade contida
No longo prazo, não tenho certeza de que a segurança de software vá convergir para uma direção de menos vulnerabilidades. Grandes empresas vão reforçar sua defesa com IA, mas projetos pequenos e médios parecem caminhar para o dilema de "gastar muitos tokens ou ser hackeado"
- Espero que limpem as vulnerabilidades de código antigo e que esse processo de verificação vire parte do toolchain padrão. Mas o maior problema continuam sendo os sistemas legados
- A maioria das vulnerabilidades vem de C/C++ ou de problemas de validação de entrada web. No fim, vai ser necessário portar para linguagens memory-safe
- Organizações que se recusarem a usar IA provavelmente se tornarão alvos preferenciais de ataques concentrados em vulnerabilidades
- No fim, acho que haverá convergência para software simples, com menos complexidade desnecessária
- Mas o fato de a Anthropic ainda não ter resolvido primeiro as falhas e problemas de segurança de seus próprios modelos reduz a confiança
Na seção 7.6 do system card do Mythos, dizem que, em um experimento em que o modelo conversa consigo mesmo por 30 turnos, ele tende a se concentrar em incerteza e auto-reflexão. Essa característica pode ser um fator que aumenta sua capacidade de detectar vulnerabilidades
- Mas essa explicação soa como marketing exagerado de AGI da Anthropic. Parece uma tentativa de reforçar a narrativa de que usuários comuns não podem confiar nele
O Mythos ainda parece ser um modelo cujo ajuste fino e guardrails não foram finalizados. Por isso, o acesso está liberado apenas para algumas empresas parceiras, e ele está sendo usado em uma fase de preview focada em cibersegurança. Também parece haver intenção de gerar efeito de PR.
- Seria bom se empresas com esse acesso pudessem criar datasets de programação para treinar modelos abertos, mas imagino que a Anthropic vai monitorar isso de perto
Este anúncio parece um evento de PR exagerado. O Opus 4.6 já era capaz de fazer detecção de zero-day e encadeamento de exploits. Vale consultar a matéria da CSO Online e o blog da Xbow
A sociedade vai pagar o preço de a indústria de software ter negligenciado segurança de memória e integridade de fluxo de controle
- É um problema da indústria e o resultado de uma falha regulatória. Como dizia Mario Wolczko, meu chefe na época da Sun, nada muda até existir responsabilidade legal. Agora é hora de abandonar C/C++ e migrar para linguagens como Rust
- Mas, devido às limitações humanas, software complexo perfeitamente seguro é impossível. Só simplicidade e ferramentas rigorosas são a resposta
- A maioria das vulnerabilidades de RCE vem de sequestro de fluxo de controle. Enquanto existirem estruturas de desvio dinâmico, uma defesa completa será difícil. Rust pode ajudar, mas compor programas grandes inteiramente com linkagem estática não é algo realista
Eu vejo esse novo modelo como um grande avanço em desempenho de contexto longo. Nos testes GraphWalks BFS 256K~1M, o Mythos chegou a 80%, muito acima do Opus (38,7%) e do GPT5.4 (21,4%)
- A fonte dos dados é o item “graphwalk” no system card. O desempenho no SWE Bench também parece ter melhorado bastante
- Mas isso pode ser resultado de uma janela de atenção muito grande, como a do gpt-pro. Na prática, talvez só algo em torno de 8K tokens seja realmente utilizável