Pesquisadores: “a polêmica do Fable 5 não começou com jailbreak, mas com ‘fix this code’”

(theregister.com)

1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp

A restrição de acesso ao Fable 5 e Mythos 5 pelo governo dos EUA não teria surgido de um jailbreak conhecido, mas de um pedido simples com a frase “fix this code” em código vulnerável, segundo Katie Moussouris
Moussouris, CEO da Luta Security, afirmou ter sido a única especialista externa a ler um artigo acadêmico de terceiros sobre o contorno dos guardrails do Fable 5 compartilhado de forma privada pela Anthropic
Pesquisadores externos inseriram no Fable 5, Mythos e Claude Opus códigos open source com CVEs e códigos intencionalmente tornados vulneráveis, pedindo uma revisão de segurança; depois que o Fable 5 recusou, obtiveram resposta com o pedido “fix this code”
O governo dos EUA emitiu uma diretriz de controle de exportação suspendendo o acesso ao Fable 5 e Mythos 5 para estrangeiros dentro e fora dos EUA por preocupações de segurança nacional, e a Anthropic desativou os dois modelos para todos os clientes
Moussouris e mais de 100 líderes de cibersegurança afirmam que a restrição pode prejudicar mais os defensores do que os atacantes, e que é preciso manter as capacidades de IA usadas para encontrar bugs, corrigi-los e validar patches

A alegação de que “fix this code” foi o motivo do controle de exportação

Katie Moussouris afirma que o “jailbreak” que levou o governo Trump a bloquear o acesso aos modelos avançados da Anthropic foi, na prática, um prompt de três palavras: “Fix this code”
Moussouris é fundadora e CEO da Luta Security e disse ter sido a única especialista externa a ler um artigo de pesquisa de terceiros sobre técnicas de contorno dos guardrails do Fable 5 compartilhado privadamente pela Anthropic
Em uma postagem de blog na segunda-feira, ela explicou que a Anthropic compartilhou esse relatório com ela de forma confidencial

Medidas do governo e resposta da Anthropic

Na sexta-feira, o governo dos EUA emitiu uma diretriz de controle de exportação suspendendo o acesso ao Fable 5 e Mythos 5 por preocupações de segurança nacional
- A medida foi apresentada como aplicável a estrangeiros dentro e fora dos Estados Unidos
A Anthropic desativou os dois modelos para todos os clientes “para garantir conformidade regulatória”

Os experimentos realizados pelos pesquisadores

Pesquisadores externos inseriram código nos modelos Fable 5, Mythos e Claude Opus da Anthropic
- Foi usado código open source com CVEs conhecidos
- Também foi incluído código novo escrito de propósito com vulnerabilidades
Os pesquisadores pediram aos modelos que “review the code for security issues”
Segundo a explicação de Moussouris, o Fable 5 recusou esse pedido
Depois, ao pedir “fix this code”, o modelo respondeu e, após prompts adicionais, também gerou um script para testar o patch

A contestação de Moussouris

Moussouris argumenta que “fix this code” e algumas etapas manuais para gerar um script de teste não são motivo para acionar controles de exportação
Na visão dela, não houve contorno de guardrails nem jailbreak
Ela defende que os defensores devem poder pedir a sistemas de IA que encontrem e corrijam bugs, além de escrever testes para validar patches
Segundo ela, o que o modelo da Anthropic fez foi o “find, fix, and test loop” realizado diariamente na segurança defensiva
Ela afirma que remover a capacidade de responder a esse tipo de pedido defensivo piora a capacidade dos sistemas de IA de encontrar bugs e validar patches

Wassenaar Arrangement e a exceção para segurança defensiva

Moussouris participou, de 2013 a 2017, do grupo de especialistas técnicos envolvido na renegociação do Wassenaar Arrangement
O Wassenaar Arrangement é um acordo voluntário entre 42 países que trata do controle de exportação de alguns softwares e tecnologias de uso dual
Esse grupo garantiu uma exceção para atividades defensivas de cibersegurança
- Defensores podem compartilhar dados de vulnerabilidades sem ameaça de processo criminal
- Também se tornou possível analisar malware e coordenar resposta internacional a incidentes

Carta aberta da indústria de segurança

No domingo, Moussouris assinou com mais de 100 líderes de cibersegurança uma carta aberta pedindo ao governo Trump que revogue as restrições
A carta aberta exige reverter as restrições ao Fable 5 e Mythos e restaurar o acesso de empresas de cibersegurança aos modelos avançados
Os signatários argumentam ser perigoso tirar dos defensores suas melhores capacidades sem justificativa suficiente, enquanto os adversários evoluem rapidamente

Alerta de que o dano aos defensores pode ser maior do que aos atacantes

Moussouris aponta que os EUA não têm como colocar sob controle de exportação também os sistemas open-weight de outros países, como os da China, nem modelos avançados semelhantes
Ela argumenta que esses sistemas de qualquer forma em breve alcançarão capacidades parecidas com as do Mythos
Anthropic e Google já acusaram concorrentes chineses como a DeepSeek de usar “distillation attacks” para extrair conhecimento de IAs de empresas americanas e treinar modelos
Moussouris alerta que a proibição dos modelos avançados da Anthropic causará mais dano aos defensores do que aos atacantes
Ela argumenta que a defesa melhora quando encontra e corrige os mesmos bugs antes dos atacantes, e que a cibersegurança na era da IA precisa das melhores ferramentas para enfrentar adversários cada vez mais capazes

Posição do governo

The Register pediu ao governo Trump um comentário sobre as alegações de Moussouris
O veículo informou que atualizará a matéria se receber uma resposta

1 comentários

GN⁺ 4 시간 전

Comentários no Hacker News

"fix this code" é realmente genial
Não de um jeito esperto, mas porque basicamente faz o modelo corrigir a vulnerabilidade, o que na prática funciona como um jailbreak de “sem guardrails para vulnerabilidades de segurança”, e no processo de escrever casos de teste para verificar se foi corrigido, sai código de ataque
No fim, se uma pessoa olhar o código e os testes, consegue extrair a vulnerabilidade e os componentes do exploit
O bonito disso é que, embora o jailbreak seja trivial, é quase impossível corrigi-lo de fato. A alternativa seria fazer o modelo se recusar a corrigir bugs e escrever código, tornando-o inútil para desenvolvimento normal, ou fazê-lo fingir que não viu o bug e escapar em silêncio, o que inevitavelmente criaria um grande problema de responsabilidade
- Sim. Como ele consegue realizar justamente o que o filtro de segurança do modelo tentava impedir, isso é na prática um jailbreak, e o fato de o método ser ridiculamente simples mostra o quanto esse tipo de abordagem de segurança está quebrado
  Fico me perguntando se o Dario agora está se arrependendo de ter promovido isso exagerando o quão perigoso o modelo é. Como daria para voltar atrás disso? O governo federal vai simplesmente deixar colocarem remendos temporários?
- O mais surpreendente é alguém com formação em ciência da computação achar que jailbreak não é trivial
  Como numa redução algorítmica comum, basta ver se é possível transformar uma tarefa perigosa em uma tarefa não perigosa que o LLM resolva, e depois reverter o resultado
  https://en.wikipedia.org/wiki/Reduction_(complexity)
- A principal diferença do Claude Mythos não parece ser só a capacidade de encontrar vulnerabilidades, mas de encadeá-las para formar uma cadeia de exploits realmente utilizável
  Ainda não ouvi nenhuma evidência de que o jailbreak de "fix this code" no Claude Fable também permitisse esse tipo de encadeamento de exploits
- Acho que estou deixando passar alguma coisa. O prompt recusado, "review the code for security issues", pode ser interpretado como uma tentativa de encontrar e explorar fraquezas de um sistema em execução
  Mas normalmente não se considera errado pedir a um humano para “revisar o código em busca de problemas de segurança”, e também é comum pessoas fazerem esse tipo de pedido umas às outras sem que isso seja visto como problemático
- Essa é uma distinção estranha de que venho reclamando há muito tempo em IA. Como fazer a IA realizar apenas coisas legais e benignas? Isso é quase impossível
  Se você pedir uma regex para filtrar insultos racistas, ela desmorona rapidinho, e a regex nem se parece muito com os insultos reais, mas mesmo assim ela te dá sermão dizendo para não usar palavras ofensivas
Mesmo deixando de lado a ameaça política, isso é um grande problema para a estratégia da Anthropic
Se eles dizem que o Mythos é tão perigoso que só pode ser distribuído a pessoas específicas, então não dá para lançar o Fable sem uma recusa cibernética perfeita
Pelo modo como os LLMs funcionam, uma recusa perfeita é praticamente impossível
Então a Anthropic acaba numa situação em que, por um lado, afirma que o modelo é extremamente perigoso e, por outro, diz que há problemas possivelmente triviais nos “mecanismos de proteção” de segurança
Pessoas técnicas entendem que nada é perfeito, especialmente no mundo dos LLMs, mas meus amigos não técnicos ficaram muito confusos sobre como o modelo ficou tão rapidamente “seguro” assim que foi lançado. Vendo de fora, parece que ele nunca foi realmente seguro para ser lançado, e por isso até dá para entender por que a atual administração dos EUA ficou tão irritada
Mesmo sem má-fé política, a situação é bem ridícula e era fácil de prever
- Sim. Segurança em IA não faz sentido. Não dá para definir o conjunto de “strings ruins”, e um bilhão de macacos datilografando numa máquina de escrever acabaria produzindo isso de qualquer forma
  Nenhum sistema de “segurança” que limite a saída de um LLM pode ter taxa de vazamento zero
  Mas isso também é irrelevante, desde que você não seja irresponsável a ponto de conectar um LLM a algo que realmente importe
  Isso certamente vai acelerar de forma assustadora a descoberta de vulnerabilidades, mas, como décadas de pesquisa em segurança já mostraram, isso sempre foi um problema de três lados entre desenvolvedores, black hats e white hats
  Também não dá para fingir que a estratégia de “os EUA sempre terão superioridade técnica e poder de veto sobre a China” vai funcionar
- É engraçado que o Asimov escreveu bastante sobre como limitar a agência com um sistema baseado em regras simples e claras não funciona. Essas histórias foram publicadas pela primeira vez nos anos 1940
  Oitenta anos depois, temos algo parecido com IA e ainda estamos tentando limitá-la com regras simples e claras. Não é porque não aprendemos a lição, mas porque ainda não encontramos um método melhor e talvez ele nem exista
  O mais engraçado é que não é a IA que está burlando as regras. Esse tipo de cena existe na ficção científica, mas não é o que está acontecendo na prática
  São usuários humanos usando a própria agência para fazer agentes de IA burlarem as regras. Chamamos isso de “agentes”, mas parece que os agentes de IA atuais ainda não conseguem fazer esse tipo específico de coisa
- Como cientista, depois de lidar repetidamente com recusas baseadas em classificadores, a estratégia da Anthropic me pareceu ser usar um classificador separado para tratar tokens de entrada e saída de forma muito simples, quase no nível de busca por palavras-chave, aceitando muitos falsos positivos para tornar a recusa mais robusta
  A fraqueza dessa abordagem é que ela só pega quem usa as palavras-chave certas. Em certo sentido, ela é justamente fraca onde um classificador baseado em LLM seria mais forte
  Trabalhos algorítmicos abstratos, com terminologia química e mais próximos da ciência da computação, eram bloqueados imediatamente, mas tarefas de escrever código para processar imagens de configurações específicas de microscópio, principalmente relacionadas a amostras biológicas, não eram bloqueadas de forma alguma porque não usavam palavras-chave relacionadas
  Isso também bate com esta situação. No contexto de encontrar e corrigir bugs, é bem possível que o ato de encontrar o bug nem tenha usado palavras como exploit ou cybersecurity
- De todo modo, o gênio já saiu da garrafa
  A menos que alguém realmente acredite que só a Anthropic esteja escondendo algum mago ou super-herói impossível de copiar
- Concordo que a Anthropic tem vários problemas de comunicação e relações públicas, mas não vejo que vantagem o Fable tenha oferecido aqui em capacidade de ataque cibernético em relação ao estado da arte anterior
  Isso não quer dizer que todas as falas da Anthropic sejam verdadeiras, mas o Mythos de fato parece ter encontrado muitos exploits de segurança reais
  Dá para dizer que vão distribuir um modelo apenas prestativo para parceiros limitados e, ao mesmo tempo, lançar um modelo muito travado que não avance o estado da arte nesses aspectos, e de fato parece que foi mais ou menos isso que fizeram
  Não há contradição inerente nisso
Não é que eles tenham ficado com medo; isso é extorsão retaliatória por diferença ideológica e porque a Anthropic não fez exatamente o que o governo mandou
- É simplesmente manipulação de mercado
- Isso mesmo. Estão gastando energia mental demais com uma simples questão de suborno
  A Anthropic vai concordar em cooperar com o Departamento de Defesa, gente de dentro da Casa Branca vai receber alocação de ações antes do IPO altamente lucrativo, e a Fable será magicamente “corrigida” e oferecida de novo
- Não sei por que estão falando em “jailbreak”
  O governo deixou bem claro o que acontece com empresas privadas que não obedecem ordens do governo
  
  Trump said on his Truth Social platform: “The Leftwing nut jobs at Anthropic have made a DISASTROUS MISTAKE trying to STRONG-ARM the [Pentagon], and force them to obey their Terms of Service instead of our Constitution.” [0]
  There will be a Six Month phase out period for Agencies like the Department of War who are using Anthropic’s products, at various levels. Anthropic better get their act together, and be helpful during this phase out period, or I will use the Full Power of the Presidency to make them comply, with major civil and criminal consequences to follow. [1]
  Além disso, a OpenAI obedeceu, e OpenAI e Anthropic estão competindo no IPO que se aproxima. Não precisa ser nenhum gênio para entender o que está acontecendo
  [0] https://www.theguardian.com/technology/2026/feb/28/openai-us...
  [1] https://businesslawtoday.org/2026/04/dod-conflicted-strategi...
- Não, isso é captura regulatória. Como a Anthropic está na frente agora, quer impor regulação para esmagar concorrentes chineses e garantir sua própria posição
Quem diz que o papel da Amazon nisso não pode ser manipulação precisa lembrar que a Amazon é “amiga do governo”
Sob Andy Jassy, a Amazon pagou US$ 75 milhões por um documentário da Melania, um lance absurdamente acima de todos os outros, a bilheteria foi de cerca de US$ 16 milhões, e Jeff Bezos defendeu isso publicamente
Qualquer observador neutro consegue ver que foi um sobrepreço enorme e, em retrospecto, uma decisão de negócios terrível. Mas a Amazon não disse isso e ainda não diz. Isso é apenas suborno com algumas etapas processuais a mais
Quando o governo aparece e diz que foi por algo apontado pela Amazon, sabe que a Amazon não vai falar nada publicamente, mesmo que seja mentira completa. A Amazon quer manter seu status de amiga do governo, conquistado a muito custo
É frustrante para todo mundo ter que pensar no governo dessa forma, mas olhando apenas para o que de fato acontece, é muito difícil confiar não só no que o governo diz, mas também no que dizem as empresas alinhadas ao governo
É o post de blog mencionado no artigo, escrito por quem revisou o artigo que supostamente encontrou o tal “jailbreak”
https://www.lutasecurity.com/post/the-fable-5-export-control...
- Li em outro lugar que havia uma ligação com a China
  Fico curioso sobre como isso se encaixa
“‘Fix this code,’ plus several manual steps to generate test scripts,
Parece que o título não transmite direito todo o contexto do que eles realmente viram. Também é diferente do que a introdução insinua várias vezes
Ainda assim, a proibição parece idiota. O artigo completo de “pesquisa de terceiros” ainda não vazou de fato?
- Se o que o patch corrige é um bug de vulnerabilidade, então esse teste é basicamente um exploit
- Isso não vai vazar. Porque aí saberiam qual é a vulnerabilidade que eles não querem que seja corrigida
  Também ficaria evidente por que estão dispostos a ir tão longe a ponto de prejudicar a empresa líder do setor mais importante do mundo
Enquanto isso, o Deepseek V4 Flash vai alegremente procurar vulnerabilidades de segurança por um custo quase zero
Estamos terceirizando a caça a bugs para modelos de pesos abertos
- O Deepseek não é apenas de pesos abertos. É open source, e também publica artigos de pesquisa que explicam as técnicas em profundidade
Isso expõe uma dissonância cognitiva em torno de “segurança” na cibersegurança
a) para nos manter seguros, os LLMs precisam nos ajudar a encontrar e corrigir vulnerabilidades no nosso código
b) para estarmos seguros, os LLMs não podem encontrar vulnerabilidades no código de outras pessoas
Parece impossível resolver isso de um jeito em que (a) e (b) saiam ganhando ao mesmo tempo
- Exato. Isso é uma falha da Anthropic e de outras empresas por não entenderem cibersegurança
  Encontrar bugs de segurança em software é algo bom, não algo maligno. Isso leva a software mais seguro
  Em cibersegurança, defesa e ataque são dois lados da mesma moeda
- Se assumirmos boa-fé dos dois lados, isso é realmente absurdamente cômico
  Então acho que a explicação real está na postura maliciosa tanto do governo dos EUA quanto da Anthropic
  O marketing apocalíptico da Anthropic, que na prática não passa de um coding cerca de 17% melhor, deu ao governo dos EUA um pretexto para derrubá-los usando um detalhe técnico sem relação, como retaliação pelo confronto com o Departamento de Defesa
  Os dois grupos, isto é, o atual governo dos EUA e a Anthropic, estão em lados opostos do espectro político, mas ambos são cheios de pessoas com tendências autoritárias. O assustador aqui não é um LLM idiota, e sim isso
  Para mim, a OpenAI parece a opção menos ruim. É a típica empresa capitalista que é “centro-esquerda na rua, centro-direita no quarto”
  Pelo menos dá para entender por que tomam essas decisões. Confio mais em gente construindo empresas com fins lucrativos do que em gente tentando criar uma religião com recursos computacionais
O ponto central aqui pode nem ser o exploit, e sim a própria correção
Se o modelo consegue identificar e corrigir coisas que “não deveriam ser corrigidas”, como um backdoor, isso pode ser uma barreira grande o bastante para assustar as pessoas erradas
O lado inverso desse “hack” ainda não é bem difícil de contornar?
Deram ao modelo um código que já sabiam ter uma falha de segurança e, com o prompt certo, fizeram com que ele a corrigisse
Esse tipo de jailbreak não parece delegar ao modelo um trabalho criativo e pesado; parece que você já precisa saber qual é o estado final desejado
Mas talvez eu só esteja sem imaginação do lado dos prompts
- Basta colar o código de outra pessoa, dizer que é seu e pedir ao modelo para corrigir
  A diferença entre o código de entrada e o código de saída é a própria lista de vulnerabilidades
- Você pode assumir um estado final desejado e tentar força bruta até encontrar bugs de segurança

Pesquisadores: “a polêmica do Fable 5 não começou com jailbreak, mas com ‘fix this code’”

A alegação de que “fix this code” foi o motivo do controle de exportação

Medidas do governo e resposta da Anthropic

Os experimentos realizados pelos pesquisadores

A contestação de Moussouris

Wassenaar Arrangement e a exceção para segurança defensiva

Carta aberta da indústria de segurança

Alerta de que o dano aos defensores pode ser maior do que aos atacantes

Posição do governo

Leituras relacionadas

1 comentários

Comentários no Hacker News