Pesquisadores: “a polêmica do Fable 5 não começou com jailbreak, mas com ‘fix this code’”
(theregister.com)- A restrição de acesso ao Fable 5 e Mythos 5 pelo governo dos EUA não teria surgido de um jailbreak conhecido, mas de um pedido simples com a frase “fix this code” em código vulnerável, segundo Katie Moussouris
- Moussouris, CEO da Luta Security, afirmou ter sido a única especialista externa a ler um artigo acadêmico de terceiros sobre o contorno dos guardrails do Fable 5 compartilhado de forma privada pela Anthropic
- Pesquisadores externos inseriram no Fable 5, Mythos e Claude Opus códigos open source com CVEs e códigos intencionalmente tornados vulneráveis, pedindo uma revisão de segurança; depois que o Fable 5 recusou, obtiveram resposta com o pedido “fix this code”
- O governo dos EUA emitiu uma diretriz de controle de exportação suspendendo o acesso ao Fable 5 e Mythos 5 para estrangeiros dentro e fora dos EUA por preocupações de segurança nacional, e a Anthropic desativou os dois modelos para todos os clientes
- Moussouris e mais de 100 líderes de cibersegurança afirmam que a restrição pode prejudicar mais os defensores do que os atacantes, e que é preciso manter as capacidades de IA usadas para encontrar bugs, corrigi-los e validar patches
A alegação de que “fix this code” foi o motivo do controle de exportação
- Katie Moussouris afirma que o “jailbreak” que levou o governo Trump a bloquear o acesso aos modelos avançados da Anthropic foi, na prática, um prompt de três palavras: “Fix this code”
- Moussouris é fundadora e CEO da Luta Security e disse ter sido a única especialista externa a ler um artigo de pesquisa de terceiros sobre técnicas de contorno dos guardrails do Fable 5 compartilhado privadamente pela Anthropic
- Em uma postagem de blog na segunda-feira, ela explicou que a Anthropic compartilhou esse relatório com ela de forma confidencial
Medidas do governo e resposta da Anthropic
- Na sexta-feira, o governo dos EUA emitiu uma diretriz de controle de exportação suspendendo o acesso ao Fable 5 e Mythos 5 por preocupações de segurança nacional
- A medida foi apresentada como aplicável a estrangeiros dentro e fora dos Estados Unidos
- A Anthropic desativou os dois modelos para todos os clientes “para garantir conformidade regulatória”
Os experimentos realizados pelos pesquisadores
- Pesquisadores externos inseriram código nos modelos Fable 5, Mythos e Claude Opus da Anthropic
- Foi usado código open source com CVEs conhecidos
- Também foi incluído código novo escrito de propósito com vulnerabilidades
- Os pesquisadores pediram aos modelos que “review the code for security issues”
- Segundo a explicação de Moussouris, o Fable 5 recusou esse pedido
- Depois, ao pedir “fix this code”, o modelo respondeu e, após prompts adicionais, também gerou um script para testar o patch
A contestação de Moussouris
- Moussouris argumenta que “fix this code” e algumas etapas manuais para gerar um script de teste não são motivo para acionar controles de exportação
- Na visão dela, não houve contorno de guardrails nem jailbreak
- Ela defende que os defensores devem poder pedir a sistemas de IA que encontrem e corrijam bugs, além de escrever testes para validar patches
- Segundo ela, o que o modelo da Anthropic fez foi o “find, fix, and test loop” realizado diariamente na segurança defensiva
- Ela afirma que remover a capacidade de responder a esse tipo de pedido defensivo piora a capacidade dos sistemas de IA de encontrar bugs e validar patches
Wassenaar Arrangement e a exceção para segurança defensiva
- Moussouris participou, de 2013 a 2017, do grupo de especialistas técnicos envolvido na renegociação do Wassenaar Arrangement
- O Wassenaar Arrangement é um acordo voluntário entre 42 países que trata do controle de exportação de alguns softwares e tecnologias de uso dual
- Esse grupo garantiu uma exceção para atividades defensivas de cibersegurança
- Defensores podem compartilhar dados de vulnerabilidades sem ameaça de processo criminal
- Também se tornou possível analisar malware e coordenar resposta internacional a incidentes
Carta aberta da indústria de segurança
- No domingo, Moussouris assinou com mais de 100 líderes de cibersegurança uma carta aberta pedindo ao governo Trump que revogue as restrições
- A carta aberta exige reverter as restrições ao Fable 5 e Mythos e restaurar o acesso de empresas de cibersegurança aos modelos avançados
- Os signatários argumentam ser perigoso tirar dos defensores suas melhores capacidades sem justificativa suficiente, enquanto os adversários evoluem rapidamente
Alerta de que o dano aos defensores pode ser maior do que aos atacantes
- Moussouris aponta que os EUA não têm como colocar sob controle de exportação também os sistemas open-weight de outros países, como os da China, nem modelos avançados semelhantes
- Ela argumenta que esses sistemas de qualquer forma em breve alcançarão capacidades parecidas com as do Mythos
- Anthropic e Google já acusaram concorrentes chineses como a DeepSeek de usar “distillation attacks” para extrair conhecimento de IAs de empresas americanas e treinar modelos
- Moussouris alerta que a proibição dos modelos avançados da Anthropic causará mais dano aos defensores do que aos atacantes
- Ela argumenta que a defesa melhora quando encontra e corrige os mesmos bugs antes dos atacantes, e que a cibersegurança na era da IA precisa das melhores ferramentas para enfrentar adversários cada vez mais capazes
Posição do governo
- The Register pediu ao governo Trump um comentário sobre as alegações de Moussouris
- O veículo informou que atualizará a matéria se receber uma resposta
1 comentários
Comentários no Hacker News
"fix this code"é realmente genialNão de um jeito esperto, mas porque basicamente faz o modelo corrigir a vulnerabilidade, o que na prática funciona como um jailbreak de “sem guardrails para vulnerabilidades de segurança”, e no processo de escrever casos de teste para verificar se foi corrigido, sai código de ataque
No fim, se uma pessoa olhar o código e os testes, consegue extrair a vulnerabilidade e os componentes do exploit
O bonito disso é que, embora o jailbreak seja trivial, é quase impossível corrigi-lo de fato. A alternativa seria fazer o modelo se recusar a corrigir bugs e escrever código, tornando-o inútil para desenvolvimento normal, ou fazê-lo fingir que não viu o bug e escapar em silêncio, o que inevitavelmente criaria um grande problema de responsabilidade
Fico me perguntando se o Dario agora está se arrependendo de ter promovido isso exagerando o quão perigoso o modelo é. Como daria para voltar atrás disso? O governo federal vai simplesmente deixar colocarem remendos temporários?
Como numa redução algorítmica comum, basta ver se é possível transformar uma tarefa perigosa em uma tarefa não perigosa que o LLM resolva, e depois reverter o resultado
https://en.wikipedia.org/wiki/Reduction_(complexity)
Ainda não ouvi nenhuma evidência de que o jailbreak de
"fix this code"no Claude Fable também permitisse esse tipo de encadeamento de exploits"review the code for security issues", pode ser interpretado como uma tentativa de encontrar e explorar fraquezas de um sistema em execuçãoMas normalmente não se considera errado pedir a um humano para “revisar o código em busca de problemas de segurança”, e também é comum pessoas fazerem esse tipo de pedido umas às outras sem que isso seja visto como problemático
Se você pedir uma regex para filtrar insultos racistas, ela desmorona rapidinho, e a regex nem se parece muito com os insultos reais, mas mesmo assim ela te dá sermão dizendo para não usar palavras ofensivas
Mesmo deixando de lado a ameaça política, isso é um grande problema para a estratégia da Anthropic
Se eles dizem que o Mythos é tão perigoso que só pode ser distribuído a pessoas específicas, então não dá para lançar o Fable sem uma recusa cibernética perfeita
Pelo modo como os LLMs funcionam, uma recusa perfeita é praticamente impossível
Então a Anthropic acaba numa situação em que, por um lado, afirma que o modelo é extremamente perigoso e, por outro, diz que há problemas possivelmente triviais nos “mecanismos de proteção” de segurança
Pessoas técnicas entendem que nada é perfeito, especialmente no mundo dos LLMs, mas meus amigos não técnicos ficaram muito confusos sobre como o modelo ficou tão rapidamente “seguro” assim que foi lançado. Vendo de fora, parece que ele nunca foi realmente seguro para ser lançado, e por isso até dá para entender por que a atual administração dos EUA ficou tão irritada
Mesmo sem má-fé política, a situação é bem ridícula e era fácil de prever
Nenhum sistema de “segurança” que limite a saída de um LLM pode ter taxa de vazamento zero
Mas isso também é irrelevante, desde que você não seja irresponsável a ponto de conectar um LLM a algo que realmente importe
Isso certamente vai acelerar de forma assustadora a descoberta de vulnerabilidades, mas, como décadas de pesquisa em segurança já mostraram, isso sempre foi um problema de três lados entre desenvolvedores, black hats e white hats
Também não dá para fingir que a estratégia de “os EUA sempre terão superioridade técnica e poder de veto sobre a China” vai funcionar
Oitenta anos depois, temos algo parecido com IA e ainda estamos tentando limitá-la com regras simples e claras. Não é porque não aprendemos a lição, mas porque ainda não encontramos um método melhor e talvez ele nem exista
O mais engraçado é que não é a IA que está burlando as regras. Esse tipo de cena existe na ficção científica, mas não é o que está acontecendo na prática
São usuários humanos usando a própria agência para fazer agentes de IA burlarem as regras. Chamamos isso de “agentes”, mas parece que os agentes de IA atuais ainda não conseguem fazer esse tipo específico de coisa
A fraqueza dessa abordagem é que ela só pega quem usa as palavras-chave certas. Em certo sentido, ela é justamente fraca onde um classificador baseado em LLM seria mais forte
Trabalhos algorítmicos abstratos, com terminologia química e mais próximos da ciência da computação, eram bloqueados imediatamente, mas tarefas de escrever código para processar imagens de configurações específicas de microscópio, principalmente relacionadas a amostras biológicas, não eram bloqueadas de forma alguma porque não usavam palavras-chave relacionadas
Isso também bate com esta situação. No contexto de encontrar e corrigir bugs, é bem possível que o ato de encontrar o bug nem tenha usado palavras como
exploitoucybersecurityA menos que alguém realmente acredite que só a Anthropic esteja escondendo algum mago ou super-herói impossível de copiar
Isso não quer dizer que todas as falas da Anthropic sejam verdadeiras, mas o Mythos de fato parece ter encontrado muitos exploits de segurança reais
Dá para dizer que vão distribuir um modelo apenas prestativo para parceiros limitados e, ao mesmo tempo, lançar um modelo muito travado que não avance o estado da arte nesses aspectos, e de fato parece que foi mais ou menos isso que fizeram
Não há contradição inerente nisso
Não é que eles tenham ficado com medo; isso é extorsão retaliatória por diferença ideológica e porque a Anthropic não fez exatamente o que o governo mandou
A Anthropic vai concordar em cooperar com o Departamento de Defesa, gente de dentro da Casa Branca vai receber alocação de ações antes do IPO altamente lucrativo, e a Fable será magicamente “corrigida” e oferecida de novo
O governo deixou bem claro o que acontece com empresas privadas que não obedecem ordens do governo
Quem diz que o papel da Amazon nisso não pode ser manipulação precisa lembrar que a Amazon é “amiga do governo”
Sob Andy Jassy, a Amazon pagou US$ 75 milhões por um documentário da Melania, um lance absurdamente acima de todos os outros, a bilheteria foi de cerca de US$ 16 milhões, e Jeff Bezos defendeu isso publicamente
Qualquer observador neutro consegue ver que foi um sobrepreço enorme e, em retrospecto, uma decisão de negócios terrível. Mas a Amazon não disse isso e ainda não diz. Isso é apenas suborno com algumas etapas processuais a mais
Quando o governo aparece e diz que foi por algo apontado pela Amazon, sabe que a Amazon não vai falar nada publicamente, mesmo que seja mentira completa. A Amazon quer manter seu status de amiga do governo, conquistado a muito custo
É frustrante para todo mundo ter que pensar no governo dessa forma, mas olhando apenas para o que de fato acontece, é muito difícil confiar não só no que o governo diz, mas também no que dizem as empresas alinhadas ao governo
É o post de blog mencionado no artigo, escrito por quem revisou o artigo que supostamente encontrou o tal “jailbreak”
https://www.lutasecurity.com/post/the-fable-5-export-control...
Fico curioso sobre como isso se encaixa
Também ficaria evidente por que estão dispostos a ir tão longe a ponto de prejudicar a empresa líder do setor mais importante do mundo
Enquanto isso, o Deepseek V4 Flash vai alegremente procurar vulnerabilidades de segurança por um custo quase zero
Estamos terceirizando a caça a bugs para modelos de pesos abertos
Isso expõe uma dissonância cognitiva em torno de “segurança” na cibersegurança
a) para nos manter seguros, os LLMs precisam nos ajudar a encontrar e corrigir vulnerabilidades no nosso código
b) para estarmos seguros, os LLMs não podem encontrar vulnerabilidades no código de outras pessoas
Parece impossível resolver isso de um jeito em que (a) e (b) saiam ganhando ao mesmo tempo
Encontrar bugs de segurança em software é algo bom, não algo maligno. Isso leva a software mais seguro
Em cibersegurança, defesa e ataque são dois lados da mesma moeda
Então acho que a explicação real está na postura maliciosa tanto do governo dos EUA quanto da Anthropic
O marketing apocalíptico da Anthropic, que na prática não passa de um coding cerca de 17% melhor, deu ao governo dos EUA um pretexto para derrubá-los usando um detalhe técnico sem relação, como retaliação pelo confronto com o Departamento de Defesa
Os dois grupos, isto é, o atual governo dos EUA e a Anthropic, estão em lados opostos do espectro político, mas ambos são cheios de pessoas com tendências autoritárias. O assustador aqui não é um LLM idiota, e sim isso
Para mim, a OpenAI parece a opção menos ruim. É a típica empresa capitalista que é “centro-esquerda na rua, centro-direita no quarto”
Pelo menos dá para entender por que tomam essas decisões. Confio mais em gente construindo empresas com fins lucrativos do que em gente tentando criar uma religião com recursos computacionais
O ponto central aqui pode nem ser o exploit, e sim a própria correção
Se o modelo consegue identificar e corrigir coisas que “não deveriam ser corrigidas”, como um backdoor, isso pode ser uma barreira grande o bastante para assustar as pessoas erradas
O lado inverso desse “hack” ainda não é bem difícil de contornar?
Deram ao modelo um código que já sabiam ter uma falha de segurança e, com o prompt certo, fizeram com que ele a corrigisse
Esse tipo de jailbreak não parece delegar ao modelo um trabalho criativo e pesado; parece que você já precisa saber qual é o estado final desejado
Mas talvez eu só esteja sem imaginação do lado dos prompts
A diferença entre o código de entrada e o código de saída é a própria lista de vulnerabilidades