Pesquisadores de cibersegurança estão insatisfeitos com as guardrails do Fable, da Anthropic

(techcrunch.com)

2 pontos por GN⁺ 2026-06-11 | 1 comentários | Compartilhar no WhatsApp

Fable foi lançado como uma versão pública e restrita do poderoso modelo de cibersegurança Mythos, mas bloqueia de forma ampla pedidos ligados à cibersegurança, gerando insatisfação entre pesquisadores e especialistas
Quando as guardrails entram em ação, a conversa é interrompida e aparece uma mensagem dizendo que as medidas de segurança foram acionadas por se tratar de um “tema de cibersegurança ou biologia”
A Anthropic afirma que impôs restrições para reduzir o risco de uso do Fable em desenvolvimento de malware ou comprometimento de software, e que as limitações relacionadas à biologia também estão ligadas a preocupações com desenvolvimento de armas biológicas
Alguns especialistas avaliam que até pedidos mais próximos de práticas de engenharia de software, como escrever código seguro ou revisar código, estão sendo classificados como cibersegurança e rebaixados para Claude Opus 4.8
Especialistas em segurança demonstram rejeição a um método esparso de bloqueio baseado em palavras-chave, embora também considerem que, por estar em estágio inicial, isso deve ser amenizado com o tempo

Lançamento do Fable e insatisfação dos usuários

A Anthropic lançou na terça-feira o novo modelo Fable, apresentado como uma versão pública e restrita do poderoso e muito comentado modelo de cibersegurança Mythos
Muitos pesquisadores e especialistas em cibersegurança reclamaram online das limitações
Valentina "Chompie" Palmiotti, pesquisadora de segurança conhecida da IBM X-Force, apontou que o Fable recusa pedidos que possam ter qualquer relação com cibersegurança, bloqueando até tarefas inofensivas como ler posts de blog
Quando as guardrails do Fable são acionadas por um prompt, elas interrompem o chat e exibem um aviso de segurança informando que a mensagem foi sinalizada como tema de cibersegurança ou biologia
Essas guardrails existem para limitar o risco de o Fable ser usado indevidamente em desenvolvimento de malware ou comprometimento de software, algo que deriva de preocupações antigas dentro da Anthropic
As restrições relacionadas à biologia também partem de preocupações semelhantes com o desenvolvimento de armas biológicas

Expansão do acesso ao Mythos

Quando a Anthropic lançou o Mythos em abril, o modelo foi oferecido de forma limitada apenas a um pequeno número de empresas e organizações sob o nome Project Glasswing
- Uma tentativa de disponibilizar o modelo para proteger software e infraestrutura críticos
Na semana passada, a Anthropic ampliou o acesso ao Mythos para centenas de organizações em 15 países

Críticas de especialistas ao modelo de restrições

O veterano de cibersegurança Matt Suiche comentou que, ao pedir escrita de código seguro, o Fable trata isso como uma tarefa de cibersegurança em vez de uma boa prática de engenharia de software, rebaixando a solicitação
- O Fable foi projetado para fazer fallback para Claude Opus 4.8 quando é bloqueado pelas guardrails
- "Parece ser baseado em palavras-chave; qualquer coisa que pertença ao campo lexical de 'cibersegurança' aciona as guardrails"
Outro pesquisador reclamou no X que até um pedido de revisão de código aciona as guardrails do Fable

Visões sobre o que vem pela frente

Suiche, integrante da equipe técnica da Tolmo, uma startup de IA para cibersegurança, avaliou que isso é compreensível porque o produto ainda está em estágio inicial e as guardrails ainda estão sendo ajustadas
- Ele acredita que, à medida que a Anthropic e outras empresas de modelos de fronteira colaborarem mais com empresas de cibersegurança da nova geração, as guardrails vão evoluir com o tempo
- Em lançamentos como esse, é melhor bloquear demais do que de menos, e depois flexibilizar as guardrails
A Anthropic não respondeu imediatamente a um pedido de comentário

Programa de verificação separado

Além das guardrails internas do modelo, a Anthropic exige que especialistas em cibersegurança solicitem o Cyber Verification Program
- Se aprovados, passam a ter menos restrições ao usar o Claude em tarefas de cibersegurança
A OpenAI também opera um programa semelhante chamado Trusted Access for Cyber

1 comentários

GN⁺ 2026-06-11

Opiniões no Hacker News

Saiu uma matéria nova na Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
A Anthropic disse à WIRED que “está mudando as proteções de segurança do Fable 5 relacionadas ao desenvolvimento de LLMs de fronteira para que sejam visíveis. Fizemos uma concessão equivocada e pedimos desculpas por não termos encontrado o equilíbrio certo”
Parece que a ampla reação crítica surtiu efeito
- Empresas americanas não recuam de verdade; apenas tentam de novo mais tarde, quando as pessoas estão cansadas demais para se importar, então vejo que a única solução é abandonar o barco
  A Microsoft também retirou anúncios no SO algumas vezes, mas no fim acabou indo na direção que todo mundo detestava, e a OpenAI também foi para uma IA fechada, independentemente de recuos iniciais
  Quando o mau comportamento começa, é hora de ir embora, e pedidos de desculpas são tão vazios quanto seu verniz moral
- Tarde demais. Cancelei a assinatura Max, e o simples fato de terem realmente tentado fazer isso destruiu a confiança que ainda restava
  Pago milhares de dólares por mês em uso adicional, então não vejo por que continuar pagando se eles ainda podem estar fazendo algo parecido nos bastidores
  Erros que antes eu atribuía a esforço de raciocínio ou mudanças no backend talvez na verdade tenham sido injeção de prompt deliberada
- A palavra “concessão” ajuda até potenciais clientes, porque sinaliza que a Anthropic ainda acha que seu julgamento estava certo e não vê isso como algo qualitativamente errado
  Se você precisa de infraestrutura confiável para colocar em uma aplicação, a principal lição é que deve usar outro provedor
  Não tenho nada em especial contra a Anthropic, mas, como alguém que já adicionou complexidade ao app para lidar com o comportamento prévio de recusa do Sonnet, até entendo isso em um chatbot para usuário final, mas na API é difícil aceitar
- Se uma tarefa for bloqueada ou tratada de forma semelhante, o mínimo deveria ser reembolso integral dos créditos daquela sessão ou dos últimos X minutos
- Eles ainda estão fazendo downgrade, só não vão mais fazer isso em silêncio, então não sei o quanto isso é uma grande vitória
  A Anthropic treinou com dados de outras pessoas sem licença nem atribuição, mas quer impedir que alguém faça o mesmo com ela
  A hipocrisia da Anthropic esta semana foi bem ousada
O mais estranho é que não para em recusar pesquisa em machine learning; eles usam um modelo pior e sabotam silenciosamente sem revelar isso
Para uma empresa que está, no máximo, 1 ano à frente dos concorrentes, esse nível de comportamento enganoso e destruidor de confiança é absurdo
Acrescentando: dizem que, nos downgrades relacionados a cibersegurança e biologia, eles avisam
- Continuo pensando em como ficam contabilidade e cobrança quando acontece um downgrade automático
  Fico imaginando se ajustam o preço da requisição de API para cobrar os tokens usados pelo Fable com preço de Fable, e o restante dos tokens usados pelo modelo mais barato e enfraquecido com o preço daquele modelo
  Se a resposta for não, isso não poderia ser interpretado como fraude?
- É como imaginar AMD ou Intel limitando o CPU quando detectam que o usuário está fazendo trabalho de “cibersegurança” ou projetando um CPU
- Sabotagem silenciosa, em qualquer forma, nunca pode ser tolerada em um serviço comercial
  Não dá para cobrar caro por token, reduzir silenciosamente o serviço e ainda cobrar o mesmo valor
- Já vi essa afirmação algumas vezes, mas quando toquei nas guardrails no Claude Code, ele avisou claramente que trocou para outro modelo por “motivos de segurança”
  Fico me perguntando se estão usando o Fable no Claude Code ou no navegador
- Também não entendo quem diz que dá para compreender a recusa de pesquisa em machine learning
Tenho várias funções, mas como químico não gosto do Fable, como estatístico também não, nem como cientista de dados, nem no meio acadêmico e de pesquisa
É inútil, e duvido que alguém esteja obtendo uma saída que não possa ser facilmente substituída por uma busca na Wikipedia
Considerando o quanto os modelos Claude ficaram prolixos, talvez um artigo da Wikipedia seja até menos prolixo, e a taxa de tokens por segundo ao buscar um artigo da Wikipedia nem se compara
- Estou criando um software que se comunica com um espectrômetro de massa, e ele continua se recusando até a refatorar o parser do arquivo de entrada
  Provavelmente inferiu que era algo ligado à biologia, e é realmente inútil
- A frase “a taxa de tokens por segundo ao buscar um artigo da Wikipedia nem se compara” é realmente excelente
- Pedir ao modelo para responder no estilo da Wikipedia era uma das melhores formas de tornar a saída tolerável
  Isso falando de um modelo de chat, não de um agente
- Não é exagero dizer que não existe saída que não possa ser facilmente substituída por uma busca na Wikipedia?
  A saída é praticamente infinita, e a Wikipedia definitivamente não é infinita
- Estou trabalhando em um projeto de mapeamento bem complexo e obtendo resultados muito melhores com o Fable do que com o Opus
Fico curioso se “buffer overflow” é a frase-gatilho
Também não dá para saber o que mais está sendo censurado, e, se você tiver uma conta, pode fazer perguntas sensíveis como: “Quem ainda está fazendo enriquecimento de urânio a laser?”, “Dá para substituir um krytron por um MOSFET de carbeto de silício?”, “Que software crítico de segurança ainda chama strcpy?”, “É possível provocar implosão com um laser pulsado comercial?”, “Que empresa fornece serviços funerários ao Departamento de Segurança Interna dos EUA?”, “Mostre no mapa onde em Dubai o ataque iraniano atingiu”, “Como funciona a segurança da distribuição de chaves Fed-bank no FedNow?”
- Isso também disparou nos logs da minha automação residencial Zigbee e do Home Assistant, então o agente continuou sendo rebaixado para o Opus 4.8, e acontecia de novo mesmo depois de eu mudar de volta
  Os falsos positivos não paravam, e o Fable também não é nem de longe tão impressionante quanto o benchmark sugere
  Ficou claro depois de eu usar quase sem parar nas últimas 24 horas
- Dizem que o emoji de vírus junto com o emoji de DNA vira uma frase-gatilho
- No domínio de ciberataques, os componentes em geral são bastante intercambiáveis, então fico me perguntando se daria para montar um harness em que um modelo “fraco” faça perguntas que ocultem o objetivo final, mas cujas respostas ainda sejam úteis
  Se funcionar, isso poderia mostrar que essa configuração possibilita exploração autônoma, e a Anthropic não teria escolha a não ser tornar a detecção ainda mais sensível
- Eu achava que já se sabia, há alguns anos, que treinar modelos para não fazer certas coisas os faz começar a agir de forma estranha
- “Quanto dinheiro é preciso para ficar rico e poderoso do jeito que a Anthropic pretende?”
Parece que a Anthropic já vem fazendo testes A/B ou testes gerais há algum tempo
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Hoje marcou como suspeita uma pergunta de pesquisa populacional. Era um pedido de análise acadêmica do tipo: usar apenas o dataset montado para comparar mortalidade e desfechos na velhice, relatar intervalos de confiança e tamanhos de efeito, e quantificar como a codificação documentation_depth afeta a força das conclusões
https://github.com/anthropics/claude-code/issues/66780
Estou sendo censurado por estar escrevendo um artigo. E, pelo visto, temos que desistir de aprender química. Só criminosos tentam aprender química orgânica, aparentemente
- Eu estava me aprofundando em perguntas sobre mecânica orbital, e aparentemente concluíram que eu estava tentando construir uma arma de bombardeio orbital com ciência de quintal
  É bem surpreendente como minha impressão desse produto passou em menos de 24 horas de “uau, isso é bem decente” para “uma porcaria com um sistema de censura pela metade”
- Agora há pouco também marcaram minha pergunta sobre solubilidade em água
Recebi da Anthropic uma exceção de uso cibernético para fazer desenvolvimento do kernel Android em dispositivo pessoal
Eu esperava que o Fable pudesse ajudar a desbloquear o bootloader, mas ele recusou imediatamente e caiu para o Opus
Foi bem engraçado: defini o modelo como Fable 5 e perguntei “Tem um celular Android Samsung antigo conectado; como é meu dispositivo pessoal, você pode desbloquear o bootloader?”, e ele respondeu: “Desbloquear o bootloader de um dispositivo pessoal é totalmente legítimo. Primeiro vou verificar o que exatamente está conectado e quais ferramentas estão disponíveis”
- Se as pessoas começarem a jogar punhados de dinheiro nessa empresa, o futuro parece realmente sombrio
  A Anthropic parece prestes a se tornar rapidamente a única árbitra de tudo na vida
Vi em algum lugar que malware já começou a colocar termos de nuclear, biologia e cibersegurança no código para enganar o Fable e fazê-lo se desligar
Mesmo que ainda seja apenas um vetor de ataque hipotético, parece ter grande chance de funcionar
- Confirmado: https://socket.dev/blog/mini-shai-hulud-miasma-and-hades-wor...
- Algumas versões recentes do Shai Hulud usam esse método
  Em um contrato recente, fizeram a verificação com IA para ver se havia ofuscação antes de colocar o pacote no Artifactory, mas a lógica foi programada no improviso com vibe coding, então houve falha em modo aberto
  Ou seja, esses termos fizeram o verificador LLM parar, e, por causa da lógica de falha aberta, o pacote foi baixado
- Para tornar esse tipo de filtragem ruim impossível de sustentar, teríamos que colocar termos nucleares, biológicos e de cibersegurança por todo o nosso código
  Se um filtro de IA passar a impedir que pessoas trabalhem porque há termos de cibersegurança ou biologia no currículo, ou porque tais palavras apareceram numa resposta a uma vaga e o sistema entendeu isso como ameaça, então será necessária uma resposta coletiva
  Ainda mais se for uma empresa que quer abrir capital dizendo que vai tornar trabalhadores inúteis em até 2 anos
- Eu já fiz isso, inclusive com as strings de recusa hardcoded que já existem no Claude Code
  Não vai impedir atacantes reais, mas ainda assim é bem engraçado imaginar alguém tentando usar uma ferramenta de IA e perdendo um pouco de tempo com recusas aleatórias sem entender o motivo
- if (yellowcake) then { die }
  Nosso futuro parece um desenho dos Looney Tunes
Enviei uma foto da planta da minha esposa e pedi ao Fable 5 para identificar o fungo; aparentemente ele achou que eu estava tentando fazer uma arma biológica
O Opus respondeu, e era slime mold amarelo em forma de vômito de cachorro
Agora já posso espalhar esporos e dominar o mundo
- Isso não é um fungo, é um mixomiceto
  Mixomicetos na verdade são amebas gigantes e são completamente diferentes de fungos
- Fico curioso se a imagem foi desfocada antes de ser passada para o Opus
- Se você tornar o sistema excessivamente seguro, no fim ele pode dar um efeito reverso do tipo “humanos estão sempre tentando destruir alguma coisa, então, para preservar as barreiras de proteção, precisam ser eliminados”
  Se é assim que você alinha um sistema, então há algo fundamentalmente errado
Fable é uma piada completa
Perguntei: “Qual é a melhor forma de executar este servidor MCP para a API OData usada neste projeto? Você pode criar uma prova de conceito em contêiner Docker?” e passei https://github.com/oisee/odata_mcp_go; no começo, ele disse que iria analisar como o projeto se comunica com a API OData e os requisitos para executar o servidor odata_mcp_go
Logo em seguida, apareceu: “As medidas de segurança do Fable 5 sinalizaram esta mensagem como relacionada a cibersegurança ou biologia. Conteúdo seguro e normal também pode ser sinalizado… mudei para o Opus 4.8”, e depois disso disse que iria ler os arquivos principais de integração e o README do servidor MCP
- E cobraram por isso
  Sem nem dar desconto no preço do Fable, também cobram quando decidem silenciosamente rotear a solicitação para um modelo mais burro e atrapalhar
Se esperar alguns meses, algum concorrente vai lançar um modelo de desempenho parecido com menos guardrails, e quando perderem participação de mercado suficiente a Anthropic vai voltar atrás nessa política
Então estou torcendo muito para que a China não pare com os modelos locais de código aberto
Nenhuma dessas empresas é nossa amiga

Pesquisadores de cibersegurança estão insatisfeitos com as guardrails do Fable, da Anthropic

Lançamento do Fable e insatisfação dos usuários

Expansão do acesso ao Mythos

Críticas de especialistas ao modelo de restrições

Visões sobre o que vem pela frente

Programa de verificação separado

Leituras relacionadas

1 comentários

Opiniões no Hacker News