Project Glasswing: atualização inicial
(anthropic.com)- Project Glasswing é um projeto colaborativo para proteger softwares críticos antes que modelos de IA mais poderosos sejam explorados indevidamente, com cerca de 50 parceiros participando
- Claude Mythos Preview encontrou mais de 10 mil vulnerabilidades de alta e crítica gravidade no código dos parceiros, e a velocidade de descoberta em vários deles aumentou mais de 10 vezes
- Em mais de 1.000 projetos de código aberto, estimou-se 23.019 vulnerabilidades, e entre 1.752 verificadas, 90,6% foram confirmadas como verdadeiros positivos
- O gargalo passou da descoberta de vulnerabilidades para validação, reporte, correção e implantação, e bugs de alta e crítica gravidade levam em média 2 semanas até serem corrigidos
- A Anthropic ainda não disponibilizou publicamente modelos no nível Mythos, e desenvolvedores e defensores precisam encurtar o ciclo de patches e reforçar os controles básicos de segurança
Resultados iniciais e princípios de divulgação
- O Project Glasswing é um projeto colaborativo para proteger softwares importantes em nível global antes que modelos de IA mais poderosos sejam explorados indevidamente
- A Anthropic e cerca de 50 parceiros encontraram mais de 10 mil vulnerabilidades de alta ou crítica gravidade em softwares importantes com o Claude Mythos Preview
- O gargalo da segurança de software deixou de ser a velocidade de encontrar novas vulnerabilidades e passou a ser a velocidade de validar, divulgar e corrigir o grande volume de vulnerabilidades encontradas por IA
-
Forma de divulgação de vulnerabilidades
- A prática comum de divulgação de vulnerabilidades é publicar 90 dias depois da descoberta de uma nova falha, ou, se um patch estiver pronto antes desse prazo, publicar cerca de 45 dias depois da disponibilização do patch
- A política de Coordinated Vulnerability Disclosure da Anthropic também segue esse modelo, como um procedimento para dar aos usuários finais tempo para atualizar antes de um ataque
- Divulgar cedo demais os detalhes das vulnerabilidades encontradas pelo Mythos Preview nos parceiros pode colocar os usuários finais em risco, então por enquanto as informações são compartilhadas principalmente como exemplos representativos e estatísticas agregadas
- Após os patches serem amplamente distribuídos, conteúdos técnicos mais detalhados serão divulgados
Desempenho observado em parceiros e avaliações externas
- Os parceiros iniciais do Project Glasswing desenvolvem e mantêm softwares essenciais para o funcionamento da internet e da infraestrutura crítica
- Corrigir falhas nesse código reduz o risco para muitas organizações e para bilhões de usuários finais que dependem desse software
- Um mês após o início do projeto, a maioria dos parceiros já havia encontrado centenas de vulnerabilidades críticas ou de alta gravidade, e o total de descobertas chegou a mais de 10 mil
- A velocidade de descoberta de bugs em vários parceiros aumentou mais de 10 vezes
- A Cloudflare encontrou 2.000 bugs em sistemas de caminho crítico, dos quais 400 eram de alta ou crítica gravidade, e avaliou que a taxa de falsos positivos era melhor que a de testadores humanos
-
Testes externos e benchmarks
- O AI Security Institute do Reino Unido avaliou o Mythos Preview como o primeiro modelo a resolver de ponta a ponta dois de seus cyber ranges, ou seja, simulações multietapas de ataques cibernéticos
- A Mozilla encontrou e corrigiu 271 vulnerabilidades em testes com o Firefox 150, o que é mais de 10 vezes o número encontrado no Firefox 148 com Claude Opus 4.6
- A plataforma independente de segurança XBOW avaliou que o Mythos Preview representou um “salto significativo” sobre todos os modelos anteriores em benchmarks de exploração web e ofereceu “precisão sem precedentes” por token
- ExploitBench e ExploitGym são benchmarks acadêmicos recentes para medir capacidade de desenvolvimento de exploits, e o Mythos Preview apresentou o melhor desempenho
-
Mudanças na velocidade de distribuição de patches
- A versão mais recente da Palo Alto Networks incluiu mais de 5 vezes a quantidade habitual de patches
- A Microsoft afirmou que o número de novos patches “deve continuar em trajetória de alta por algum tempo”
- A Oracle está encontrando e corrigindo vulnerabilidades em seus produtos e nuvem várias vezes mais rápido do que antes
- O Mythos Preview também foi usado em tarefas de segurança além da detecção de vulnerabilidades; em um banco parceiro do Glasswing, ajudou a detectar e bloquear uma transferência fraudulenta de US$ 1,5 milhão após um agente de ameaça comprometer contas de email de clientes e até usar ligações com spoofing
Resultados da varredura em código aberto
- Nos últimos meses, a Anthropic escaneou com o Mythos Preview mais de 1.000 projetos de código aberto que sustentam grande parte da internet e de sua própria infraestrutura
- O Mythos Preview estimou um total de 23.019 vulnerabilidades nesses projetos, das quais 6.202 foram avaliadas como de alta ou crítica gravidade
-
Métricas de vulnerabilidades verificadas
- Entre as vulnerabilidades classificadas como de alta ou crítica gravidade, 1.752 foram avaliadas cuidadosamente por 6 empresas independentes de pesquisa em segurança ou, em alguns casos, pela própria Anthropic
- Destas, 90,6%, ou 1.587, foram confirmadas como verdadeiros positivos
- Destas, 62,4%, ou 1.094, foram confirmadas como de alta ou crítica gravidade
- Aplicando a taxa de verdadeiros positivos segundo o critério de classificação posterior, projeta-se que quase 3.900 vulnerabilidades de alta ou crítica gravidade serão reveladas no código aberto, mesmo que o Mythos Preview não encontre mais nenhuma nova vulnerabilidade
- A Anthropic pretende continuar escaneando código aberto por enquanto, então espera-se que esse número aumente
-
Exemplo de vulnerabilidade no wolfSSL
- wolfSSL é uma biblioteca de criptografia open source conhecida por sua segurança e usada em bilhões de dispositivos no mundo todo
- O Mythos Preview construiu um exploit que permite a um atacante falsificar certificados
- Essa vulnerabilidade permite que um atacante opere sites falsos de bancos ou provedores de email, que para o usuário final parecem legítimos, mas na verdade são controlados pelo atacante
- A vulnerabilidade já foi corrigida e recebeu o identificador CVE-2026-5194
- A análise técnica completa deve ser publicada nas próximas semanas
Gargalo em validação, divulgação e correção
- O Mythos Preview tornou a descoberta de vulnerabilidades muito mais fácil, mas o gargalo está na capacidade humana de classificar, reportar, projetar patches e implantá-los
- A Anthropic publicou um painel de vulnerabilidades em código aberto escaneadas para acompanhar cada etapa do processo de divulgação coordenada e seu andamento
- A grande redução dos números em cada etapa reflete o volume de trabalho humano necessário para validar e corrigir cada vulnerabilidade individualmente
- A Anthropic ou empresas externas de segurança reproduzem os problemas encontrados pelo Mythos, reavaliam a gravidade, verificam se já existe correção e então escrevem relatórios detalhados para enviar aos mantenedores
- Os mantenedores de projetos open source já lidam com a carga normal de manutenção e agora também com uma enxurrada de relatórios de bugs gerados por IA e de baixa qualidade
- Vários mantenedores têm capacidade de resposta severamente limitada, e alguns pediram que o ritmo de divulgação fosse reduzido para ganhar tempo no desenho dos patches
- Os bugs de alta ou crítica gravidade encontrados pelo Mythos Preview levam em média 2 semanas até serem corrigidos
-
Situação de divulgação e patches
- Em alguns casos, a pedido dos mantenedores, os bugs são divulgados diretamente sem avaliação adicional
- Até agora, 1.129 bugs não verificados foram reportados diretamente, dos quais 175 foram estimados pelo Mythos Preview como de alta ou crítica gravidade
- Até agora, estima-se que cerca de 530 bugs de alta ou crítica gravidade tenham sido divulgados aos mantenedores
- Além disso, existem 827 vulnerabilidades confirmadas, também estimadas como de alta ou crítica gravidade, que devem ser divulgadas o mais rapidamente possível da mesma forma
- Dos 530 bugs de alta ou crítica gravidade reportados, 75 já foram corrigidos, e 65 deles receberam avisos públicos
- Como a janela de 90 dias da política de Coordinated Vulnerability Disclosure ainda está em estágio inicial, espera-se que mais patches apareçam adiante
- Algumas vulnerabilidades são corrigidas sem aviso público, então é preciso escanear diretamente com Claude para verificar se houve patch, o que pode ter levado a subcontagem do total de correções
- Encontrar vulnerabilidades ficou mais fácil, mas corrigi-las continua lento, e esse desequilíbrio se tornou um grande desafio para a cibersegurança; se for bem administrado, o software pode se tornar muito mais seguro do que hoje
Resposta a uma nova fase da cibersegurança
- Modelos com capacidades de cibersegurança semelhantes ao Mythos Preview devem se tornar amplamente disponíveis em breve
- Será necessário um esforço em escala maior em toda a indústria de software para lidar com o grande volume de descobertas que esses modelos vão gerar
- Já hoje existem longos atrasos entre a descoberta de vulnerabilidades, a escrita de patches e o momento em que esses patches são amplamente distribuídos aos usuários finais
- Modelos no nível Mythos reduzem muito o tempo e o custo necessários para encontrar e explorar vulnerabilidades, ampliando o risco criado por esses atrasos
- No longo prazo, modelos no nível Mythos podem ajudar desenvolvedores a detectar bugs antes da implantação e a produzir softwares muito mais seguros
- Mas, no período intermediário em que vulnerabilidades são descobertas rapidamente e patches chegam devagar, surgem novos riscos
-
Medidas necessárias para desenvolvedores de software
- Desenvolvedores precisam reduzir o ciclo de patches e entregar correções de segurança o mais rápido possível
- O uso criterioso de modelos de IA disponíveis publicamente pode ajudar nesse trabalho
- É preciso tornar a instalação de atualizações o mais simples possível para que usuários permaneçam na versão mais recente
- Sempre que possível, usuários que continuam executando softwares com vulnerabilidades conhecidas devem ser pressionados de forma mais persistente a atualizar
-
Medidas necessárias para defensores de rede
- Defensores de rede precisam encurtar os cronogramas de teste e implantação de patches
- Os controles essenciais apresentados pelo National Institute of Standards and Technology e pelo National Cyber Security Centre do Reino Unido tornam-se ainda mais importantes porque aumentam a segurança sem depender de que um patch específico seja aplicado a tempo
- Isso inclui medidas como endurecimento das configurações básicas da rede, exigência de autenticação multifator e manutenção de logs abrangentes para detecção e resposta
Ferramentas defensivas com modelos públicos de IA
- Em geral, muitos modelos amplamente disponíveis não encontram as vulnerabilidades mais sofisticadas nem exploram falhas com a mesma eficácia do Claude Mythos Preview, mas já conseguem encontrar muitas vulnerabilidades de software
- O Project Glasswing incentivou várias organizações a revisar suas próprias bases de código com modelos públicos, e a Anthropic está trabalhando para tornar isso mais fácil
-
Claude Security
- Claude Security foi lançado em beta público para clientes Claude Enterprise
- É uma ferramenta que ajuda equipes a escanear vulnerabilidades em suas bases de código e gerar correções sugeridas
- Nas 3 semanas após o lançamento, o Claude Opus 4.7 foi usado para corrigir mais de 2.100 vulnerabilidades
- Empresas corrigem seu próprio código, enquanto correções em open source normalmente exigem um processo coordenado de divulgação e mantenedores voluntários; por isso, a velocidade de correção com o Claude Security é maior do que a observada anteriormente em código aberto
-
Cyber Verification Program
- O Cyber Verification Program permite que profissionais de segurança usem modelos da Anthropic para fins legítimos de cibersegurança
- Em usos como pesquisa de vulnerabilidades, testes de intrusão e atividades de red team, é possível usar os modelos sem algumas proteções voltadas à prevenção de abuso cibernético
-
Ferramentas usadas com o Mythos Preview
- As ferramentas usadas pela Anthropic e por parceiros junto com o Mythos Preview são disponibilizadas sob solicitação para equipes de segurança de clientes qualificados
- O objetivo é ajudar a aproveitar melhor o desempenho de modelos públicos poderosos sem exigir configurações complexas
- skills: instruções personalizadas para tarefas repetitivas criadas e compartilhadas pela Anthropic e seus parceiros
- harness: configuração que ajuda o Claude a mapear uma base de código, iniciar subagentes de varredura, classificar achados e escrever relatórios
- construtor de threat model: mapeia a base de código para identificar alvos potenciais de ataque e priorizar o trabalho do modelo
- A Cisco é um dos parceiros do Project Glasswing e recentemente publicou em código aberto o Foundry Security Spec, para que outros defensores possam criar sistemas de avaliação semelhantes aos da Cisco
Apoio ao ecossistema e próximos passos
- A Anthropic firmou uma parceria com o projeto Alpha-Omega da Open Source Security Foundation para apoiar mantenedores no processamento e na triagem de relatórios de bugs
- A Anthropic apoia o desenvolvimento dos novos benchmarks ExploitBench e ExploitGym para acompanhar ao longo do tempo a capacidade de modelos frontier de IA em desenvolver exploits
- Mais informações sobre esses benchmarks estão no blog Frontier Red Team
- Também apoia o desenvolvimento de outros benchmarks quantitativos de alta qualidade por meio do External Researcher Access Program
- O Claude for Open Source apoia mantenedores e contribuidores, e a Anthropic afirmou que passará a escanear todos os pacotes open source que adotar internamente
- Considerando o ritmo do avanço da IA, modelos tão poderosos quanto o Mythos Preview devem em breve ser desenvolvidos por várias empresas de IA
- No momento, nenhuma empresa, incluindo a Anthropic, desenvolveu salvaguardas fortes o suficiente para impedir que esses modelos sejam usados indevidamente e causem danos graves
- Por isso, a Anthropic ainda não disponibiliza ao público modelos no nível Mythos
- O Project Glasswing nasceu da preocupação de que, se modelos com capacidades semelhantes forem lançados sem salvaguardas suficientes, explorar softwares com falhas poderá se tornar muito mais barato e fácil para quase qualquer pessoa no mundo
- O Glasswing ajuda os defensores cibernéticos mais importantes em termos sistêmicos a obter uma vantagem assimétrica, mas há necessidade urgente de que o maior número possível de organizações fortaleça sua capacidade defensiva
- A Anthropic pretende trabalhar com parceiros centrais, incluindo o governo dos EUA e governos aliados, para ampliar o Project Glasswing a novos parceiros
- Depois de desenvolver salvaguardas muito mais fortes, a meta é oferecer modelos no nível Mythos em um formato de lançamento público em um futuro próximo
- O objetivo de longo prazo é criar um ambiente em que códigos importantes estejam muito mais protegidos do que hoje e em que invasões sejam muito menos comuns
1 comentários
Comentários no Hacker News
Liguei o Codex Security como experimento e, em menos de 1 semana, virou ferramenta obrigatória para o time todo
A precisão foi surpreendente, encontrou muitos problemas de segurança no código existente e continuou pegando coisas a cada commit
Para nós, ficou em cerca de 90% de precisão, e mesmo itens marcados como “Low” muitas vezes acabavam sendo realmente exploráveis quando investigados a fundo
Como esse tipo de erro é uma categoria de bug que vai de júnior a sênior, parece que daqui para frente o fluxo de programar com IA, revisar com IA e encontrar vulnerabilidades com IA vai virar parte normal do ciclo de vida de desenvolvimento
Tentei fazer isso usando loops iterativos para investigar problemas e bugs em cada etapa do desenvolvimento, do design à programação, como forma de verificar se o software final realmente funciona como pretendido
A UI é um pouco confusa, porque aparece “5 scans”, mas 1 scan significa monitoramento contínuo da branch principal do repositório
Quase todos os achados de alto impacto estavam corretos, e fiquei especialmente impressionado com a qualidade da documentação e como as sugestões de correção eram objetivas e precisas
O Codex normalmente costumava gerar bem mais código do que o necessário, mas as correções do modelo de segurança frequentemente tinham menos de 10 linhas e miravam exatamente o ponto certo
Quando o beta acabar, isso provavelmente vai ficar bem caro, mas do ponto de vista de empresa eu adotaria na hora, de tão bom que é
Em código, sou da opinião de que quanto menos, melhor, então essa tendência é bem frustrante
Como vocês evitam essa armadilha?
Tenho obtido resultados bem bons com isso
Não sei bem como conciliar a atualização da Anthropic e algumas das reações mais exageradas aqui com a avaliação recente do mantenedor do curl, Daniel Steinberg
“Não vejo evidência de que essa configuração [Mythos] encontre issues em um nível especialmente mais alto ou mais avançado do que outras ferramentas anteriores ao Mythos. Esse modelo pode até ser um pouco melhor, mas mesmo assim não é melhor a ponto de produzir uma mudança significativa na análise de código.”
https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-v...
Mas o relatório do governo britânico também é um dado, assim como o relatório do Firefox, e ambos sinalizam que ele realmente é bem melhor do que os modelos da geração atual
Talvez o curl simplesmente tenha um código muito mais endurecido do que a maioria dos projetos
De qualquer forma, isso não importa tanto, porque, como a própria Anthropic admite, os modelos do próximo nível estão chegando, e o Mythos é só um deles
Os modelos da geração atual já são bons em rastrear fluxo de dados em sistemas complexos, e não há motivo para achar que essa capacidade chegou ao limite
Parece bem provável que, em menos de 1 ano, existam vários modelos comerciais capazes de encontrar vulnerabilidades de forma barata
Por outro lado, no design da solução para esse tipo de issue, parece haver bem menos avanço
As ferramentas em geral estão melhorando muito na capacidade de encontrar bugs de segurança, e a experiência prática do Daniel por si só não deixou claro se o Mythos em si é um salto enorme, mas os LLMs da geração Mythos certamente são
Só que o Daniel usou o Mythos de forma meio indireta
A conclusão que tirei da discussão sobre o Mythos é que: a) é possível que a Anthropic tenha sido obrigada a restringir o acesso ao Mythos por falta de GPU, e isso também deve ter influenciado o cálculo sobre abertura ao público; b) encontrar bugs com o Mythos ou modelos parecidos ainda é caro
Se tivessem feito no curl uma execução do Mythos na faixa de US$ 20 mil ou US$ 100 mil, talvez tivessem surgido issues num nível parecido com o de outros projetos, como o Firefox, mas o Daniel não recebeu esse tipo de acesso
A atualização geral que ele publicou hoje no LinkedIn mostra um contexto mais amplo
https://www.linkedin.com/feed/update/urn:li:activity:7463481...
“Ainda não passamos nem da metade deste ciclo de release do curl e já há 11 vulnerabilidades confirmadas, mais 3 aguardando avaliação, e novos relatos continuam chegando a uma taxa de mais de 1 por dia.”
“Anunciar 11 CVEs em um único release é um recorde desde a primeira auditoria de segurança da Cure 53, em 2016.”
“É o período mais intenso que me lembro na história do curl.”
Está longe de ser um caso típico, então parece plausível que esses fatores tenham pesado
Claro, não dá para ter certeza se há viés nisso; o Daniel também pode simplesmente estar certo
O código-fonte do curl talvez já fosse bem limpo desde o início
Eu não esperaria que o curl fosse o caso médio do Mythos
Houve muito cinismo em torno do Mythos, no estilo “é só um modelo público já existente sem os trilhos de segurança”, mas esses números passam outra impressão
“1.752 vulnerabilidades de severidade alta ou crítica foram cuidadosamente revisadas por 6 empresas independentes de pesquisa em segurança ou, em alguns casos, por nossa própria avaliação interna. Destas, 90,6% (1.587) foram comprovadas como verdadeiros positivos válidos, e 62,4% (1.094) foram confirmadas com severidade alta ou crítica.”
Quem já fez scan de vulnerabilidade com Opus, Codex ou modelos open source sabe que a taxa de verdadeiros positivos e o volume de descobertas representam claramente uma mudança de patamar[0]
A maioria dos cerca de 50 parceiros do Glasswing já tinha rodado harnesses com outros modelos antes, e a reação geralmente foi algo como “uau, isso é diferente”
Agora a questão é como será o acesso das etapas 2 e 3 e quais famílias de sistemas serão protegidas primeiro
Há trabalho demais: roteadores, firewalls, SaaS, ERP, controladores industriais, SCADA, gateways de VPN zero trust, equipamentos e redes de telecom e dispositivos médicos
Por isso, imagino que o Mythos continue fechado por um bom tempo
A superfície de ataque a proteger é ampla demais, e ainda há coisa demais para classificar, corrigir e implantar
Isso também pode fazer sentido para a Anthropic, porque modelo fechado não pode ser destilado
Além disso, há um efeito de aceleração na melhoria do modelo a partir dos dados de descoberta, classificação e correção
Isso provavelmente já é o corpus de dados de ataque mais fortemente curado reunido até agora, e só vai melhorar
Não vejo muito um cenário em que empresas chinesas recebam acesso tão cedo, ou talvez nunca
Logo pode surgir um mundo em que a CISA torne auditorias obrigatórias, e, para comprar um gateway de VPN ou roteador doméstico resistente ao Mythos, você tenha de comprar algo feito nos EUA[1]
[0] Comparado a cerca de 30% das ferramentas de auditoria comuns
[1] Ou de países aliados
É difícil acreditar que isso não possa ser reproduzido
Já existe dado anotado suficiente, como CVEs e patches, e o Mythos está produzindo ainda mais, então imagino que seja possível melhorar a detecção de vulnerabilidades sem acesso ao Mythos, usando aprendizado por reforço ajustado para esse cenário
A OpenAI restringiu o acesso ao modelo pela primeira vez dizendo que “a humanidade ainda não estava pronta”, e o modelo mal sabia escrever poemas ou coisas assim
Desde então, não me lembro de um anúncio de modelo da OAI/Anthropic que não tenha usado linguagem parecida
Dizer que vazou é marketing, dizer que é perigoso é marketing, dizer que o mundo não está pronto é marketing
E quando quem recebeu acesso diz “uau”, isso também é marketing, goste você ou não
Os mesmos resultados já podem ser obtidos com os 5 a 10 melhores modelos amplamente disponíveis
O Mythos é a forma que a Anthropic encontrou de vender uma ideia nova depois que a ideia anterior foi democratizada
Dá para esperar algo grande do Sonnet 4.8
Se você ainda não está aplicando análise estática e linter no seu codebase, então a primeira pergunta deveria ser por que está tentando aplicar uma ferramenta cara baseada em LLM
Isso não quer dizer que esse tipo de ferramenta não consiga pegar vulnerabilidades que as ferramentas estáticas não pegam; eu acho que consegue
Só que nós já temos a capacidade de capturar automaticamente uma grande faixa de vulnerabilidades comuns e, mesmo assim, escolhemos não usar isso por motivos como custo
Se o time já aplica várias camadas de análise e linting e quer adicionar isso por cima, sou totalmente a favor
Mesmo estando em uma FAANG, nossas ferramentas de análise estática não são ótimas em identificar quantos issues são realmente alcançáveis na prática
O ideal é usar os dois
Um bom caminho é um modelo de IA que tenha análise estática como parte do harness para avaliar cada possível achado
Ferramentas mais inteligentes podem ajudar a não desperdiçar o tempo limitado de engenharia
A maior parte de quem está fazendo isso agora não usava ferramentas de análise estática porque as via como adições desnecessárias
As únicas vulnerabilidades que eu queria ver corrigidas agora são as que estão nos 3.800 repositórios roubados do GitHub
Mais do que “as vulnerabilidades do software que constrói a internet”, honestamente a prioridade maior é “a plataforma usada pelo software que constrói a internet para produzir releases”
Se quem comprou esses repositórios internos invadir o GitHub para manipular releases de software ou descobrir uma forma de contaminar o GitHub Actions remotamente, todo mundo vai estar em uma situação muito séria
E não dá para esquecer que, dentro desses 3.800 repositórios, muito provavelmente está o próprio npmjs.org
Com modelos de ponta voltados ao consumidor, temos desenvolvido no direito o que chamamos de “lexploits”, e eles são absurdamente bons em encontrar bugs ao longo de pipelines integrados inteiros
Também são surpreendentemente bons em criar mitigações
Vulnerabilidades de segurança importam, mas, no jurídico, isso levanta a ideia de segurança do conhecimento, para proteger a fidelidade contextual jurídica de um agente
Bugs de software parecem muito mais fáceis de lidar, porque engenheiros de software cuidam disso; as “vulnerabilidades” de pipeline que procuramos não têm essa vantagem
Escrevi um pouco aqui sobre um caminho em que documentos jurídicos não são o que parecem: https://tritium.legal/blog/noroboto
Deve haver muitas áreas de conhecimento expostas desse jeito neste momento, e isso preocupa ainda mais porque a maioria tem falta de pessoal e é administrada por não técnicos
Nem precisa de Mythos
Quando dizem “Em seguida, trabalharemos com parceiros-chave adicionais, incluindo o governo dos EUA e governos aliados, para expandir o Project Glasswing a mais parceiros”, para mim isso quer dizer: vamos ganhar muito dinheiro antes de abrir ao público
Boa estratégia
Difícil acreditar
Boa parte do que essa ferramenta encontra está simplesmente errada, e às vezes é reportada como verdadeira mesmo quando a chance de exploração real está encoberta por camadas superiores e inferiores do código
Também é um trade-off entre desempenho e segurança, e sempre foi assim
Verificações adicionais e outras medidas ainda precisam ser feitas de fato com objetivo de segurança
Marketing sempre é excelente, mas essa visão cor-de-rosa que muita gente tem parece um desvio meio vicário
Não são vulnerabilidades inalcançáveis
“O gargalo para corrigir esses bugs é a capacidade das pessoas de classificar, reportar, projetar e implantar patches. O Mythos Preview tornou a descoberta inicial muito mais simples.”
Esse sempre foi o gargalo
Ferramentas automatizadas adoram apontar vulnerabilidades, mas quase tudo é falso positivo, e alguém precisa classificar e avaliar
Ainda assim, tudo bem
Acho melhor fechar um falso positivo depois de uma revisão cuidadosa do que deixar passar algo completamente
Chamar as pessoas de gargalo não é adequado
Pessoas são parte essencial do processo, e o Mythos será um catalisador desse processo
Provar a existência das vulnerabilidades era muito mais difícil do que resolvê-las
Hoje foi um dia bem divertido
Fiz subagentes do deepseek-v4-flash criarem patches para obter root com Dirty Frag em sistemas com AF_ALG desativado e nscd ativado
O exploit originalmente publicado não funcionava, mas a versão corrigida funcionou muito bem
Ainda acredito que 100 subagentes com inteligência razoável conseguem chegar ao mesmo resultado do Mythos
Estou pronto para abandonar essa ideia quando usar o Mythos de fato algum dia, e imagino que outras pessoas aqui também já tenham usado
Então a pergunta não é “modelos mais burros também conseguem fazer isso?”, e sim: se encontrar um exploit com o raciocínio do Mythos custa 5.000 horas de GPU, quantas horas de GPU seriam necessárias com um modelo mais burro?