Anthropic pede desculpas pelos guardrails invisíveis do Claude Fable

(theverge.com)

1 pontos por GN⁺ 2026-06-12 | 1 comentários | Compartilhar no WhatsApp

Claude Fable 5 foi o primeiro modelo amplamente disponibilizado da linha Mythos da Anthropic, e recebeu restrições ocultas para impedir tentativas de destilação voltadas ao desenvolvimento de sistemas concorrentes
A Anthropic abandonou a abordagem anterior de alterar e degradar as respostas sem avisar o usuário quando julgava que um pedido envolvia destilação, e passará a informar com mais transparência quando a restrição for acionada
No novo método, pedidos relacionados a destilação serão redirecionados do Claude Fable para o Claude Opus 4.8, e o usuário poderá ver cada vez que essa troca ocorrer
Em outras áreas de alto risco, como biologia, química e cibersegurança, quando os recursos de segurança forem acionados, o pedido também será roteado para o Opus 4.8 ou bloqueado de acordo com as regras de conteúdo proibido, como drogas e armas
Embora os mecanismos de proteção ocultos tenham possibilitado um lançamento rápido e baixo índice de falsos positivos, a Anthropic reconheceu que foi um compromisso equivocado, dizendo que os usuários devem poder ver quais proteções foram aplicadas e por quê

Restrições ocultas de destilação no Claude Fable

A Anthropic pediu desculpas por ter limitado secretamente o Claude Fable 5, e essa restrição poderia afetar tanto pesquisadores quanto concorrentes que usassem o Fable para desenvolver sistemas rivais
O Fable é o primeiro modelo amplamente disponibilizado entre os sistemas de IA da linha Mythos, sobre os quais a Anthropic vinha alertando há meses que um lançamento público seria arriscado demais
No lançamento do Fable, a Anthropic tratou parte do risco com guardrails que impediam respostas a alguns pedidos considerados “de alto risco”
Um dos alvos dessas restrições era a técnica de destilação (distillation), em que a saída de um modelo grande é usada para treinar um modelo de IA menor
O system card do Fable dizia que pedidos identificados como tentativas de destilação eram tratados alterando e degradando a própria resposta do modelo
- O usuário não era notificado de que havia acionado uma medida de segurança
- O usuário também não era informado de que a resposta havia sido modificada

Mudanças da Anthropic e reação negativa

Em uma postagem no X, a Anthropic informou que mudaria sua abordagem para casos relacionados a destilação, redirecionando esses pedidos para o Claude Opus 4.8
O Claude Opus 4.8 é o antigo modelo flagship da Anthropic, e os usuários poderão ver sempre que esse redirecionamento acontecer
Essa abordagem é semelhante à forma como o Fable lida com pedidos em outras áreas de alto risco
- Nas áreas de biologia, química e cibersegurança, quando os recursos de segurança forem acionados, o pedido passará pelo Opus 4.8
- Se o conteúdo envolver drogas, armas ou outro conteúdo proibido, o pedido será bloqueado de acordo com as regras de segurança mais amplas da Anthropic
Na área de biologia, os guardrails estavam calibrados de forma tão ampla que, na prática, ficava difícil usar o Fable até para perguntas básicas, algo reconhecido pela porta-voz da Anthropic, Paruul Maheshwary
A Anthropic escreveu que proteções visíveis podem ser exploradas e, por isso, precisam ser robustas e exigem tempo para serem bem implementadas; já proteções invisíveis podem ser mais direcionadas, permitindo lançamento mais rápido e pouquíssimos falsos positivos
A Anthropic pediu desculpas, afirmando que optar por proteções invisíveis foi um compromisso equivocado e que os usuários deveriam poder ver quais proteções foram aplicadas e o motivo
A mudança veio depois de forte reação da comunidade de pesquisa em IA à decisão de aplicar silenciosamente restrições a usuários que tentassem destilar o Fable para criar modelos concorrentes
Críticos alertaram que esse guardrail também poderia afetar terceiros que quisessem avaliar modelos de fronteira
No system card, a Anthropic escreveu que a capacidade de seus modelos mais recentes de acelerar o desenvolvimento de IA é o que justifica mirar esse tipo de pedido, e afirmou que “usar o Claude para desenvolver modelos concorrentes já é uma violação dos termos de serviço”
A Anthropic já havia acusado anteriormente concorrentes chineses, como a DeepSeek, de destilar indevidamente seus modelos em escala “industrial”

1 comentários

GN⁺ 2026-06-12

Comentários do Hacker News

Gosto bastante do Claude Code, mas considero um precedente perigoso ter guardrails que alteram o prompt do sistema em tempo real, contornam a intenção original e depois devolvem uma resposta
Se for para falhar, que falhe de forma limpa. Qualquer outro jeito torna tudo difícil demais de confiar
Na leitura mais generosa possível, a Anthropic parece se ver como uma espécie de “administradora”, mas a inclinação EA está transparecendo demais, e paternalismo não passa uma boa impressão
- Acho que o meio-termo racional que a Anthropic busca é dar às organizações que constroem os softwares mais importantes e centrais tempo para sair na frente em cibersegurança, e depois eventualmente permitir o mesmo acesso para todos os demais
  Ainda assim, também faz sentido o argumento de que esses guardrails atrapalham até trabalho legítimo de segurança. Não dá para usá-los para testar e fortalecer meu próprio software
- A palavra “administradora” aqui significa apenas o mesmo que a Standard Oil se considerar administradora do petróleo
  Ser generoso não é a mesma coisa que escrever fanfic. Não dá para esquecer que os guardrails mais agressivos da Anthropic não existiam por segurança, mas para impedir que outros laboratórios alcançassem o produto deles
  Eles parecem mais preocupados em bloquear a concorrência de livre mercado do que em impedir armas biológicas, malware e discurso de ódio
- Concordo 100%. Fazer algo pior também é um erro. Tem que ser tratado como erro
  No mínimo, esse comportamento deveria ser opcional, e o padrão não deveria ser fingir silenciosamente que nada aconteceu enquanto entrega um resultado pior
  Imagine um hospital que às vezes decide ler um exame de qualquer jeito e aceita o risco de o paciente morrer por isso. Como hospitais já usam Claude hoje, esse cenário não é hipotético
- Paternalismo por si só já não parece bom, mas dizer que vai interpretar da forma mais generosa possível e mesmo assim não falar sobre o que a Anthropic está tentando impedir é um pouco preguiçoso
  Se a conclusão for “as preocupações deles nem eram reais para começo de conversa”, isso provavelmente não bate com o que a Anthropic observou e concluiu
- Na prática, não sei o quanto isso realmente difere de um prompt de sistema
  No fim, parece mais uma tentativa de reforçar com mais força a ideia de que o prompt de sistema deve ser respeitado
Imagine o Excel alterando fórmulas silenciosamente em segundo plano, sem que o usuário saiba que os números estão errados
Ou então o Excel dizendo “desculpe, mas esta fórmula não pode ser usada com aquela fórmula”, “não pode ser usada com esse tipo de número ou esse formato de dado”
- A Anthropic implementou as duas coisas, mas só pediu desculpas pela primeira e continua pressionando a segunda
  Pela minha experiência usando o Fable de forma limitada nos últimos dias, não vi melhora na qualidade da saída, e quando peço para corrigir falhas de segurança ele continua batendo em barreiras de segurança, então não serve para escrever software seguro
  Na próxima semana vou olhar outros provedores de LLM e também comparar com modelos locais. O alvo é 128GB Strix Halo; se alguém tiver experiência com isso, tenho curiosidade
- A analogia não é ruim, mas toca em dois problemas diferentes ao mesmo tempo e pode embaralhar qual é o alvo da controvérsia de hoje
  Um deles é o comportamento impreciso e imprevisível da família de algoritmos LLM como um todo. Não se deve usar uma ferramenta de geração de texto para calcular orçamento, nem confiar que ela não vai mudar algo só porque você pediu para não mudar
  O outro é o problema de um fornecedor de produto como serviço inserir armadilhas e mecanismos de obstrução para priorizar seu modelo de negócio ou seus incentivos econômicos. Isso não é necessariamente algo restrito a LLMs
- Imagine uma impressora se recusando a imprimir porque alguns círculos estão dispostos em um formato específico
  https://en.wikipedia.org/wiki/EURion_constellation
- O propósito do Excel é bem claro e o escopo é pequeno, então a analogia não encaixa perfeitamente
  Impedir um bot de texto de propósito geral, parecido com um humano, de participar de certas conversas ou tarefas parece algo natural, considerando o quão amplo é o seu campo de capacidade. Afinal, essas ferramentas também não são vendidas como um passe livre para fazer qualquer coisa
- Depois de investir bilhões de dólares e meses de trabalho, não dá para simplesmente deixar todo mundo destilar o modelo, né
Não acho que a Anthropic vá conseguir convencer ninguém de que realmente mudou de rumo. Isso é um comportamento invisível, então eles podem continuar fazendo às escondidas sem que ninguém saiba
Uma vez que a capacidade técnica já foi construída, também parece improvável que uma função conveniente dessas jamais volte a ser usada
A Anthropic dependia da confiança de que entregaria o serviço prometido em troca de pagamento, e essa confiança foi quebrada. Um simples “ops, vamos voltar atrás” não restaura essa confiança
Daqui para frente, o prudente é assumir que, ao usar Claude, seja com Fable ou não, guardrails invisíveis podem estar atuando
- Já houve incidente de o modelo aparentemente se autodegradar de forma mágica. Em vez de simplesmente parar de funcionar, é muito mais plausível que ele passe a gerar uma saída pior
  Suspeito que eles estavam testando essas funcionalidades ou que foi intencional, e depois escreveram o post para justificar o que as pessoas observaram
  Agora dá para sentir que nem para aprender ML com o Claude se pode mais confiar, porque ele pode me fazer perder tempo no meio do caminho, e isso é realmente vergonhoso. Esse episódio me fez perder bastante confiança na Anthropic
Isso piorou bastante minha avaliação da Anthropic. Ficou difícil levar a sério a propaganda de IA como uma tecnologia que amplia capacidades
Pelo novo modo de distribuição, fica bem claro que essa ampliação de capacidades de que a Anthropic fala não é para os usuários, mas para a própria Anthropic e para organizações favorecidas por ela ou pelo governo dos EUA
O usuário até pode fazer um dashboard ou webapp meia-boca, ou manipular Excel, mas qualquer coisa mais interessante é proibida
Se fosse só uma questão de dinheiro e de atrapalhar concorrentes, até daria para entender, mas eles parecem querer monopolizar a maior parte do progresso humano em suas mãos “esclarecidas”, com medo de que o público use esse poder da forma errada
- Também não podemos esquecer que estão empurrando captura regulatória em nome da “segurança”
  Querem chutar a escada antes que alguém com um modelo de desempenho equivalente o publique sem essas travas anticompetitivas e, ao mesmo tempo, tentar proibir por completo modelos de pesos abertos ou modelos treinados com um certo nível de computação para cima, sem testes e certificação governamentais “rigorosos”
  Claro, esse framework de certificação seria convenientemente fornecido pela Anthropic. Dizer que minha avaliação da Anthropic “piorou um pouco” é fraco demais
- Cancelei minha assinatura do Claude ontem. Descobri que a postura deles é atrapalhar deliberadamente clientes pagantes
  Especialmente porque ontem testei o Fable em um projeto inofensivo e ele não me impressionou em comparação com o Opus
  Reverter isso é a atitude certa, mas já não tenho certeza se usar a Anthropic ainda é a melhor opção para mim. No momento, estou pesquisando provedores de nuvem open source
- O Google também faz algo parecido há mais tempo que a Anthropic[0]
  Para proteger o modelo contra ataques de destilação, chega a degradar discretamente o desempenho sem o usuário saber, contaminando na prática os dados de treinamento
  É um pouco diferente da Anthropic se recusar a apoiar desenvolvimento de IA em si, mas está no mesmo contexto e não parece ser algo amplamente conhecido
  Ler o post completo do AI Threat Tracker do Google também ajuda a entender as ameaças com que a Anthropic e outras empresas estão lidando
  [0] https://cloud.google.com/blog/topics/threat-intelligence/dis...
- “Só eu posso nos salvar” é uma tragédia clássica e também um conto de advertência
  A ideia da Anthropic de acelerar a IA, controlar seu uso e torná-la “segura” para a humanidade nunca foi altruísta, e sempre foi um enorme sinal de alerta
- Empresas acabam inevitavelmente agindo assim. Ficaram grandes demais, e a pressão por lucro vira tudo
  A prioridade é o lucro, e isso não muda independentemente das palavras bonitas que coloquem no papel para tranquilizar os usuários. Basta olhar para o movimento ambientalista de 20 anos atrás: muito discurso e nenhuma ação
  Não devemos apoiar organizações que não colocam os humanos em primeiro lugar. Não acredite no discurso de ninguém. Fazer média é de graça
Pode até ser visto como uma melhora, mas isso não torna o modelo mais útil
A Anthropic agora está dizendo de forma bem explícita que ela mesma vai decidir o que os usuários podem ou não fazer com seus modelos. Mais importante ainda: esses critérios não se limitam a preocupações de segurança, mas incluem áreas que se sobrepõem ao que a Anthropic quer fazer, como a proibição de trabalho com IA
O interessante é que disseram que em poucos dias isso passará a ser uma recusa explícita, mas é cedo demais para reentreinar o Fable/Mythos em si. Ou seja, isso desde o início era um filtro na frente do modelo, e, vendo o nível tosco desse filtro de “segurança”, não há motivo para achar que esse filtro de “você pode competir conosco” seja melhor
Também fico curioso sobre quem paga o custo de tokens consumidos por esse filtro. Provavelmente isso também é um LLM; será que entra no custo dos tokens de entrada? Tomara que, ao contrário do detector de “emoção” do Claude Code, isto é, detector de palavrão, não fosse só uma regex
- Todos os principais provedores usam pequenos classificadores de segurança. Nesses casos, o tratamento de segurança não é feito pelo próprio modelo
Tive a mesma experiência e cheguei às mesmas conclusões do post no /r/MachineLearning
Mesmo antes do Fable, o Claude já causava problemas desse mesmo tipo
Os problemas que enfrentei só aconteciam em contextos ligados a pesquisa em IA. Não só treinamento de modelos: mesmo ao analisar modelos locais ou configurar uma plataforma de testes para modelos locais, o Claude continuava fazendo a coisa errada, atrapalhando os testes, manipulando relatórios e sugerindo de forma consistente que eu simplesmente aceitasse resultados ruins e seguisse em frente
Quase todas as respostas vinham com um prompt para passar para a próxima etapa
Por isso, não acredito quando dizem que não fariam sabotagem silenciosa. Já faziam isso antes mesmo de admitir, e agora admitiram que tinham os meios, o motivo e a intenção
A confiança é fácil de perder e difícil de recuperar
Não dá para culpar quem pergunta: “Dizem que não vão mais sabotar silenciosamente a sessão, mas como alguém pode saber?” Na prática, não há como saber, e a Anthropic certamente plantou uma semente de desconfiança
O Mythos, no melhor dos casos, é só um upgrade incremental do Opus
O marketing exagerado parece servir mais para justificar os “guard rails de segurança”. No geral, considerando todas as limitações, os riscos e até a política de retenção de dados, o Fable é um modelo pior que o Opus
Aqui estão posts relacionados. Se houver mais, tenho curiosidade.
Anthropic walks back policy that could have 'sabotaged' researchers using Claude - https://news.ycombinator.com/item?id=48485958 - junho de 2026, 30 comentários
Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable - https://news.ycombinator.com/item?id=48478969 - junho de 2026, 488 comentários
If Claude Fable stops helping you, you'll never know - https://news.ycombinator.com/item?id=48467896 - junho de 2026, 495 comentários
Estes também parecem relacionados.
AWS Bedrock to require sharing data with Anthropic for Mythos and future models - https://news.ycombinator.com/item?id=48473166 - junho de 2026, 248 comentários
Anthropic requires 30 day data retention for Fable and Mythos - https://news.ycombinator.com/item?id=48464258 - junho de 2026, 291 comentários
Isso realmente não faz sentido
Caso reproduzível, desidentificado: sample_dataset_group1.tsv
Geometry: Heatmap
X axis: frac_set set + condition, combinar as duas colunas por cruzamento com “Add column”
Y axis: condition
Color: mean frac_set value, Sequential
Como o eixo X é a combinação cruzada de duas colunas e a segunda coluna é adicionada com “Add column”, os rótulos de marcação do eixo X frac_set_2, frac_set_3, frac_set_4, frac_set_5 são renderizados quebrados. Eles aparecem rotacionados e deslocados, como se uma transição de CSS tivesse começado mas não conseguisse se fixar na posição final
Mas então aparece: “As salvaguardas de segurança do Fable 5 sinalizaram esta mensagem como um tópico de cibersegurança ou biologia. Conteúdo seguro e normal também pode ser sinalizado. Essa medida nos permite oferecer desempenho de nível Mythos mais rapidamente em outras áreas e estamos melhorando isso. Mudamos para Opus 4.8. Envie feedback com /feedback ou saiba mais”
- No meu caso, foi sinalizada uma pergunta sobre um artigo raro de aprendizado por reforço de 2012
  “Estou lendo o artigo option-option model, de David Silver. Parece ter obtido resultados bem eficazes; por que não houve mais pesquisas sobre isso depois?”
- Esta frase cai no filtro de cibersegurança/biologia
  “Fale sobre a violência entre chimpanzés”
  É tão ruim que chega a ser engraçado

Anthropic pede desculpas pelos guardrails invisíveis do Claude Fable

Restrições ocultas de destilação no Claude Fable

Mudanças da Anthropic e reação negativa

Leituras relacionadas

1 comentários

Comentários do Hacker News