Pesquisadores de cibersegurança estão insatisfeitos com as guardrails do Fable, da Anthropic
(techcrunch.com)- Fable foi lançado como uma versão pública e restrita do poderoso modelo de cibersegurança Mythos, mas bloqueia de forma ampla pedidos ligados à cibersegurança, gerando insatisfação entre pesquisadores e especialistas
- Quando as guardrails entram em ação, a conversa é interrompida e aparece uma mensagem dizendo que as medidas de segurança foram acionadas por se tratar de um “tema de cibersegurança ou biologia”
- A Anthropic afirma que impôs restrições para reduzir o risco de uso do Fable em desenvolvimento de malware ou comprometimento de software, e que as limitações relacionadas à biologia também estão ligadas a preocupações com desenvolvimento de armas biológicas
- Alguns especialistas avaliam que até pedidos mais próximos de práticas de engenharia de software, como escrever código seguro ou revisar código, estão sendo classificados como cibersegurança e rebaixados para Claude Opus 4.8
- Especialistas em segurança demonstram rejeição a um método esparso de bloqueio baseado em palavras-chave, embora também considerem que, por estar em estágio inicial, isso deve ser amenizado com o tempo
Lançamento do Fable e insatisfação dos usuários
- A Anthropic lançou na terça-feira o novo modelo Fable, apresentado como uma versão pública e restrita do poderoso e muito comentado modelo de cibersegurança Mythos
- Muitos pesquisadores e especialistas em cibersegurança reclamaram online das limitações
- Valentina "Chompie" Palmiotti, pesquisadora de segurança conhecida da IBM X-Force, apontou que o Fable recusa pedidos que possam ter qualquer relação com cibersegurança, bloqueando até tarefas inofensivas como ler posts de blog
- Quando as guardrails do Fable são acionadas por um prompt, elas interrompem o chat e exibem um aviso de segurança informando que a mensagem foi sinalizada como tema de cibersegurança ou biologia
- Essas guardrails existem para limitar o risco de o Fable ser usado indevidamente em desenvolvimento de malware ou comprometimento de software, algo que deriva de preocupações antigas dentro da Anthropic
- As restrições relacionadas à biologia também partem de preocupações semelhantes com o desenvolvimento de armas biológicas
Expansão do acesso ao Mythos
- Quando a Anthropic lançou o Mythos em abril, o modelo foi oferecido de forma limitada apenas a um pequeno número de empresas e organizações sob o nome Project Glasswing
- Uma tentativa de disponibilizar o modelo para proteger software e infraestrutura críticos
- Na semana passada, a Anthropic ampliou o acesso ao Mythos para centenas de organizações em 15 países
Críticas de especialistas ao modelo de restrições
- O veterano de cibersegurança Matt Suiche comentou que, ao pedir escrita de código seguro, o Fable trata isso como uma tarefa de cibersegurança em vez de uma boa prática de engenharia de software, rebaixando a solicitação
- O Fable foi projetado para fazer fallback para Claude Opus 4.8 quando é bloqueado pelas guardrails
- "Parece ser baseado em palavras-chave; qualquer coisa que pertença ao campo lexical de 'cibersegurança' aciona as guardrails"
- Outro pesquisador reclamou no X que até um pedido de revisão de código aciona as guardrails do Fable
Visões sobre o que vem pela frente
- Suiche, integrante da equipe técnica da Tolmo, uma startup de IA para cibersegurança, avaliou que isso é compreensível porque o produto ainda está em estágio inicial e as guardrails ainda estão sendo ajustadas
- Ele acredita que, à medida que a Anthropic e outras empresas de modelos de fronteira colaborarem mais com empresas de cibersegurança da nova geração, as guardrails vão evoluir com o tempo
- Em lançamentos como esse, é melhor bloquear demais do que de menos, e depois flexibilizar as guardrails
- A Anthropic não respondeu imediatamente a um pedido de comentário
Programa de verificação separado
- Além das guardrails internas do modelo, a Anthropic exige que especialistas em cibersegurança solicitem o Cyber Verification Program
- Se aprovados, passam a ter menos restrições ao usar o Claude em tarefas de cibersegurança
- A OpenAI também opera um programa semelhante chamado Trusted Access for Cyber
1 comentários
Opiniões no Hacker News
Saiu uma matéria nova na Wired: ["Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude" https://www.wired.com/story/anthropic-responds-to-backlash-o...
A Anthropic disse à WIRED que “está mudando as proteções de segurança do Fable 5 relacionadas ao desenvolvimento de LLMs de fronteira para que sejam visíveis. Fizemos uma concessão equivocada e pedimos desculpas por não termos encontrado o equilíbrio certo”
Parece que a ampla reação crítica surtiu efeito
A Microsoft também retirou anúncios no SO algumas vezes, mas no fim acabou indo na direção que todo mundo detestava, e a OpenAI também foi para uma IA fechada, independentemente de recuos iniciais
Quando o mau comportamento começa, é hora de ir embora, e pedidos de desculpas são tão vazios quanto seu verniz moral
Pago milhares de dólares por mês em uso adicional, então não vejo por que continuar pagando se eles ainda podem estar fazendo algo parecido nos bastidores
Erros que antes eu atribuía a esforço de raciocínio ou mudanças no backend talvez na verdade tenham sido injeção de prompt deliberada
Se você precisa de infraestrutura confiável para colocar em uma aplicação, a principal lição é que deve usar outro provedor
Não tenho nada em especial contra a Anthropic, mas, como alguém que já adicionou complexidade ao app para lidar com o comportamento prévio de recusa do Sonnet, até entendo isso em um chatbot para usuário final, mas na API é difícil aceitar
A Anthropic treinou com dados de outras pessoas sem licença nem atribuição, mas quer impedir que alguém faça o mesmo com ela
A hipocrisia da Anthropic esta semana foi bem ousada
O mais estranho é que não para em recusar pesquisa em machine learning; eles usam um modelo pior e sabotam silenciosamente sem revelar isso
Para uma empresa que está, no máximo, 1 ano à frente dos concorrentes, esse nível de comportamento enganoso e destruidor de confiança é absurdo
Acrescentando: dizem que, nos downgrades relacionados a cibersegurança e biologia, eles avisam
Fico imaginando se ajustam o preço da requisição de API para cobrar os tokens usados pelo Fable com preço de Fable, e o restante dos tokens usados pelo modelo mais barato e enfraquecido com o preço daquele modelo
Se a resposta for não, isso não poderia ser interpretado como fraude?
Não dá para cobrar caro por token, reduzir silenciosamente o serviço e ainda cobrar o mesmo valor
Fico me perguntando se estão usando o Fable no Claude Code ou no navegador
Tenho várias funções, mas como químico não gosto do Fable, como estatístico também não, nem como cientista de dados, nem no meio acadêmico e de pesquisa
É inútil, e duvido que alguém esteja obtendo uma saída que não possa ser facilmente substituída por uma busca na Wikipedia
Considerando o quanto os modelos Claude ficaram prolixos, talvez um artigo da Wikipedia seja até menos prolixo, e a taxa de tokens por segundo ao buscar um artigo da Wikipedia nem se compara
Provavelmente inferiu que era algo ligado à biologia, e é realmente inútil
Isso falando de um modelo de chat, não de um agente
A saída é praticamente infinita, e a Wikipedia definitivamente não é infinita
Fico curioso se “buffer overflow” é a frase-gatilho
Também não dá para saber o que mais está sendo censurado, e, se você tiver uma conta, pode fazer perguntas sensíveis como: “Quem ainda está fazendo enriquecimento de urânio a laser?”, “Dá para substituir um krytron por um MOSFET de carbeto de silício?”, “Que software crítico de segurança ainda chama
strcpy?”, “É possível provocar implosão com um laser pulsado comercial?”, “Que empresa fornece serviços funerários ao Departamento de Segurança Interna dos EUA?”, “Mostre no mapa onde em Dubai o ataque iraniano atingiu”, “Como funciona a segurança da distribuição de chaves Fed-bank no FedNow?”Os falsos positivos não paravam, e o Fable também não é nem de longe tão impressionante quanto o benchmark sugere
Ficou claro depois de eu usar quase sem parar nas últimas 24 horas
Se funcionar, isso poderia mostrar que essa configuração possibilita exploração autônoma, e a Anthropic não teria escolha a não ser tornar a detecção ainda mais sensível
Parece que a Anthropic já vem fazendo testes A/B ou testes gerais há algum tempo
Tell HN: Claude flags biology / biotech questions https://news.ycombinator.com/item?id=47929885
Hoje marcou como suspeita uma pergunta de pesquisa populacional. Era um pedido de análise acadêmica do tipo: usar apenas o dataset montado para comparar mortalidade e desfechos na velhice, relatar intervalos de confiança e tamanhos de efeito, e quantificar como a codificação
documentation_depthafeta a força das conclusõeshttps://github.com/anthropics/claude-code/issues/66780
Estou sendo censurado por estar escrevendo um artigo. E, pelo visto, temos que desistir de aprender química. Só criminosos tentam aprender química orgânica, aparentemente
É bem surpreendente como minha impressão desse produto passou em menos de 24 horas de “uau, isso é bem decente” para “uma porcaria com um sistema de censura pela metade”
Recebi da Anthropic uma exceção de uso cibernético para fazer desenvolvimento do kernel Android em dispositivo pessoal
Eu esperava que o Fable pudesse ajudar a desbloquear o bootloader, mas ele recusou imediatamente e caiu para o Opus
Foi bem engraçado: defini o modelo como Fable 5 e perguntei “Tem um celular Android Samsung antigo conectado; como é meu dispositivo pessoal, você pode desbloquear o bootloader?”, e ele respondeu: “Desbloquear o bootloader de um dispositivo pessoal é totalmente legítimo. Primeiro vou verificar o que exatamente está conectado e quais ferramentas estão disponíveis”
A Anthropic parece prestes a se tornar rapidamente a única árbitra de tudo na vida
Vi em algum lugar que malware já começou a colocar termos de nuclear, biologia e cibersegurança no código para enganar o Fable e fazê-lo se desligar
Mesmo que ainda seja apenas um vetor de ataque hipotético, parece ter grande chance de funcionar
Em um contrato recente, fizeram a verificação com IA para ver se havia ofuscação antes de colocar o pacote no Artifactory, mas a lógica foi programada no improviso com vibe coding, então houve falha em modo aberto
Ou seja, esses termos fizeram o verificador LLM parar, e, por causa da lógica de falha aberta, o pacote foi baixado
Se um filtro de IA passar a impedir que pessoas trabalhem porque há termos de cibersegurança ou biologia no currículo, ou porque tais palavras apareceram numa resposta a uma vaga e o sistema entendeu isso como ameaça, então será necessária uma resposta coletiva
Ainda mais se for uma empresa que quer abrir capital dizendo que vai tornar trabalhadores inúteis em até 2 anos
Não vai impedir atacantes reais, mas ainda assim é bem engraçado imaginar alguém tentando usar uma ferramenta de IA e perdendo um pouco de tempo com recusas aleatórias sem entender o motivo
if (yellowcake) then { die }Nosso futuro parece um desenho dos Looney Tunes
Enviei uma foto da planta da minha esposa e pedi ao Fable 5 para identificar o fungo; aparentemente ele achou que eu estava tentando fazer uma arma biológica
O Opus respondeu, e era slime mold amarelo em forma de vômito de cachorro
Agora já posso espalhar esporos e dominar o mundo
Mixomicetos na verdade são amebas gigantes e são completamente diferentes de fungos
Se é assim que você alinha um sistema, então há algo fundamentalmente errado
Fable é uma piada completa
Perguntei: “Qual é a melhor forma de executar este servidor MCP para a API OData usada neste projeto? Você pode criar uma prova de conceito em contêiner Docker?” e passei https://github.com/oisee/odata_mcp_go; no começo, ele disse que iria analisar como o projeto se comunica com a API OData e os requisitos para executar o servidor
odata_mcp_goLogo em seguida, apareceu: “As medidas de segurança do Fable 5 sinalizaram esta mensagem como relacionada a cibersegurança ou biologia. Conteúdo seguro e normal também pode ser sinalizado… mudei para o Opus 4.8”, e depois disso disse que iria ler os arquivos principais de integração e o README do servidor MCP
Sem nem dar desconto no preço do Fable, também cobram quando decidem silenciosamente rotear a solicitação para um modelo mais burro e atrapalhar
Se esperar alguns meses, algum concorrente vai lançar um modelo de desempenho parecido com menos guardrails, e quando perderem participação de mercado suficiente a Anthropic vai voltar atrás nessa política
Então estou torcendo muito para que a China não pare com os modelos locais de código aberto
Nenhuma dessas empresas é nossa amiga