Mesmo que o Claude Fable pare de ajudar, o usuário não consegue saber

(jonready.com)

5 pontos por GN⁺ 2026-06-10 | 2 comentários | Compartilhar no WhatsApp

Um modelo de assistência para programação pode limitar sua eficácia em pedidos relacionados ao desenvolvimento de LLMs concorrentes sem avisar o usuário, criando um risco de cadeia de suprimentos para a confiança em ferramentas de desenvolvimento
A Anthropic introduziu no Fable 5 uma limitação de eficácia para pedidos ligados ao desenvolvimento de LLMs de fronteira, e essa limitação é invisível para o usuário
Em vez de fazer fallback para outro modelo, a limitação funciona reduzindo a eficácia por meio de métodos como modificação de prompt, vetores de steering e PEFT
Até empresas de software comuns usam embeddings, rerankers, sistemas de recomendação e ajuste fino/hospedagem de LLMs pequenos, o que torna mais nebulosa a fronteira entre pesquisa de IA de fronteira e desenvolvimento de produto
Quando o Claude dá respostas ruins durante tarefas com componentes de IA, o usuário não consegue saber se isso ocorreu por confusão do modelo, contexto incorreto ou uma limitação de política oculta

Problema central

No model card do Fable 5, há uma indicação de que foi implementada uma nova intervenção para limitar a eficácia do Claude em solicitações voltadas ao desenvolvimento de LLMs de fronteira
Exemplos citados de aplicação incluem construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuído e design de aceleradores de ML
A Anthropic afirma que usar o Claude para desenvolver modelos concorrentes já viola os termos de serviço
Diferentemente das intervenções para cibersegurança, biologia/química e tentativas de destilação, essa limitação não é visível para o usuário
O Fable 5 não faz fallback para outro modelo; ele limita a eficácia usando métodos como modificação de prompt, vetores de steering e fine-tuning eficiente em parâmetros (PEFT)

Desenvolvimento de produto e o problema da fronteira

Empresas modernas de software estão construindo cada vez mais embeddings próprios, reranking e sistemas de recomendação
O wanderfugl.com é apresentado como um pequeno app bootstrapped com reranker personalizado e algoritmo de embeddings treinados diretamente
A Anthropic dá alguns exemplos de “desenvolvimento de IA de fronteira”, mas não fornece uma linha divisória clara
Técnicas antes restritas a laboratórios de pesquisa em IA agora também são usadas por empresas comuns de software, tornando essa fronteira mais difícil de definir a cada ano
Startups treinam modelos de embedding, criam rerankers e fazem ajuste fino e hospedagem de LLMs pequenos

Risco de cadeia de suprimentos da Anthropic

A Anthropic afirma que essas proteções afetam apenas 0,03% dos desenvolvedores
O problema é que a definição de empresa de IA está mudando
A maioria das empresas ainda não treina modelos de fronteira hoje, mas os modelos de IA estão cada vez mais presentes no software moderno
Há 5 anos, criar uma startup era mais próximo de escrever APIs e consultas SQL, mas agora isso frequentemente inclui treinar, ajustar e implantar modelos
Há 5 anos, um modelo como o CLIP era um projeto de pesquisa em IA de fronteira; hoje, ele já é alvo de fine-tuning até em startups bootstrap de viagens

Problema de confiança

Ao depurar um pipeline de treinamento de modelos para produto, se o Claude dá respostas ruins, é difícil distinguir a causa
As causas possíveis incluem confusão do modelo, contexto insuficiente fornecido pelo usuário ou ativação de uma limitação de política oculta
A Anthropic escolheu explicitamente não avisar o usuário quando esse tipo de limitação estiver em funcionamento
Se uma ferramenta de desenvolvimento pode parar de otimizar para o sucesso sem avisar o usuário, fica difícil confiar plenamente nessa infraestrutura

2 comentários

GN⁺ 2026-06-11

Opiniões no Lobste.rs

É como imaginar um compilador que se recusa a compilar direito linguagens concorrentes
Acho esse comportamento da Anthropic realmente repugnante
- É basicamente uma versão em IA de Reflections on Trusting Trust
- Pensando na mesquinharia que pode surgir numa guerra de linguagens, é até surpreendente que isso ainda não tenha acontecido
- Dá para ler isso como ironia meio em tom de piada, e eu gostaria de ler assim
  Porque, na prática, ele realmente está se recusando a compilar linguagens concorrentes
No longo prazo, isso mostra bem por que rodar modelos locais controlados pelo usuário deveria virar o padrão
Ninguém quer usar uma ferramenta sobre a qual não tem controle. Se outra pessoa decide no meu lugar o que eu posso fazer, não importa o quanto a ferramenta seja melhor
- Não sei se é bem assim. Ninguém quer usar ferramentas sem controle, mas, na prática, quase todo mundo faz isso
  Estou escrevendo este post agora mesmo em um iPhone que impede até mudanças básicas que a Apple considera “perigosas”, e tenho um Kindle no colo no qual a Amazon não permite baixar os livros. Em breve vou voltar a trabalhar para uma empresa SaaS que limita o quanto muitos clientes grandes conseguem entender e controlar o comportamento real das ferramentas
  Há muito mais exemplos, mas o quanto a ferramenta é melhor e mais fácil de usar claramente importa bastante na prática
- Sim. Esse também é um dos motivos pelos quais depender demais de SaaS é uma escolha ruim, não só para LLMs, mas no geral
  No fundo, é como morar na casa de outra pessoa e ter que seguir as regras dela. Desde que essas regras não sejam ilegais nem prejudiquem gravemente o negócio, o fornecedor vai fazer tudo o que puder para atender aos próprios objetivos, e não aos do usuário
- Fico pensando de onde viriam esses modelos locais. Mesmo modelos open source já são distribuídos treinados e podem vir com a mesma “funcionalidade” embutida
  Não sou especialista, mas parece que, para ter o nível de independência mencionado, no fim você teria que arcar com o custo de treinar o modelo por conta própria
Eu não esperava ver heavenbanning ao usar LLMs, mas aqui estamos
- heavenbanning?
  …
  oh holy shit… parece uma versão psicótica de IA do shadowban ~~fashion~~
Dizer que “implementamos uma nova intervenção para limitar a eficácia do Claude em solicitações voltadas ao desenvolvimento de LLMs de fronteira” é, no fim das contas, criar uma regra de nada de mais desejos
Não acho que a Anthropic mereça ser tão xingada por isso. Pelo menos admitiu que faz isso. Acho que todo mundo deve estar fazendo
Desde o DeepSeek, ficou claro que destilação é eficaz demais, a ponto de talvez eliminar o incentivo para desenvolver novos modelos. É só esperar outra pessoa criar e depois destilar de forma relativamente fácil
- Vale notar que isso é separado das proteções contra destilação e é uma medida adicional. O texto distingue isso de forma bem clara
  Algo como: “Diferentemente das intervenções relacionadas a tentativas de destilação, essa proteção é invisível ao usuário. O Fable 5 não é substituído por outro modelo”
  Para destilação, dizem que bloqueiam substituindo por um modelo mais fraco e avisando o usuário. Espero que a cobrança também seja ajustada de acordo
  Já a proteção adicional serve para impedir discussões com o Fable sobre temas como “pipeline de pré-treinamento, infraestrutura de treinamento distribuído e design de aceleradores de ML”
  Por exemplo, isso pode ser acionado por prompts como “quero criar um LLM de fronteira, como devo montar o pipeline de pré-treinamento?” ou talvez até “o que significa RLHF?”. Já destilação é enviar um grande volume de prompts e usar as saídas para construir diretamente seu próprio modelo
- O DeepSeek enviou cerca de 150 mil requisições para a API da Anthropic, o que não é exatamente um volume significativo
  Além disso, esse número foi apresentado pela própria Anthropic, que não tem nenhum incentivo para ser honesta nesse tipo de dado. Na verdade, deveríamos até supor que o número real pode ser menor
  Além disso, esse tipo de medida mira objetivos finais detectados de forma arbitrária e aplica interferências arbitrárias segundo regras arbitrárias criadas pela Anthropic conforme a ocasião
Isso é bem diferente da explicação no post de anúncio
Estava escrito algo como: “Se o classificador do Fable detectar solicitações relacionadas a cibersegurança, biologia e química, ou destilação, a resposta será automaticamente tratada pelo Claude Opus 4.8. Nesse caso, o usuário será notificado”
- As duas coisas estão corretas, e as duas foram ditas pela própria Anthropic
  As classificações mencionadas geram recusa, mas tentativas de competir com a Anthropic fazem o Fable ficar silenciosamente mais burro e pior, sem notificação. E não há como saber exatamente quais prompts acionam esse comportamento
Espero que mais gente que faz prompting com IA comece a dar importância à reprodutibilidade e à observabilidade interna
Por esse tipo de palhaçada, eu não gostaria de pagar para usar esse modelo
No cenário ideal, deveria existir um modelo de cobrança em que você só paga quando ele realmente é útil. Já é ruim quando você gasta 20 dólares em tokens numa tarefa e o resultado é inútil, ou quando a maior parte do custo vem do fato de o modelo não seguir instruções
Ainda assim, dá para racionalizar isso como uma aposta paga. Mas, se o provedor do modelo simplesmente decide não entregar o serviço pelo qual estou pagando, isso chega perto de fraude

GN⁺ 2026-06-10

Comentários do Hacker News

É difícil ver a atitude da Anthropic desta vez como algo diferente de chutar a escada para trás. Por mais que isso venha embalado como “segurança”, é difícil interpretar com boa vontade
Lembra aquele tipo de senso comum em forma de dark pattern da era Web 1.0, quando links externos eram proibidos, ou a forma como apps sociais impediam exportação de dados e enfraqueciam deliberadamente a interoperabilidade de APIs
Mas isso não é só um fosso de dados, é uma ferramenta. É como uma faca que reduz a capacidade de fazer facas, ou um editor de texto que impede a implementação de editores de texto
- Apoiar IA open source está se tornando cada vez mais importante, especialmente do ponto de vista jurídico. Se a Anthropic consegue se mostrar autoritária tão rápido assim, não é difícil imaginar o quanto isso pioraria se ela conseguisse um monopólio concedido pelo governo que proibisse concorrência open source
  É meio chocante e assustador ver as verdadeiras intenções aparecerem tão cedo. Parece que querem substituir toda a engenharia de software pelo próprio produto e depois matar silenciosamente quem estiver criando software concorrente
  Nem dá para saber que outros produtos eles vão lançar no futuro. Só resta torcer para você não estar em nenhuma área em que eles queiram entrar. Porque eles vão cortar a ponte
  E treinar com meus dados tirados da internet pode? Haha. Parece que os termos de serviço só valem para os outros, não para eles mesmos. Soa parasitário
- É difícil imaginar que eles não aplicariam isso da mesma forma a outros produtos que estão construindo. Pode virar algo como “você não pode criar agentes com Claude porque compete com Claude Code”, “você não pode criar ferramentas de design porque compete com Claude Design”, “você não pode criar ferramentas de e-mail porque compete com Cowork”
- Isso parece parte do marketing. A Anthropic não está realmente tão à frente dos outros laboratórios, mas anúncios assim fazem parecer que está se aproximando da singularidade
- A regra de que “só sacerdotes podem entrar no santuário” é tão antiga quanto a sociedade. Ela é criada por um motivo e violada por outro
  A mente humana é estruturada em várias camadas para lidar com previsões em diferentes escalas de tempo, e por causa da imprevisibilidade do universo continuam surgindo contradições entre essas camadas. Criamos histórias para suportar isso
  Por isso existe controle e existe a ilusão de controle
- No fim das contas, o mais perigoso era a concorrência
Destilar a propriedade intelectual dos outros é totalmente aceitável, mas destilar a nossa é violação dos termos de serviço :)
- Deveríamos exigir licenças aprovadas pela Open Source Initiative para pesos de LLM
  Os modelos chineses sob Apache 2.0 podem ter censura, mas pelo menos não podem te processar nos EUA por encontrar a linha de censura
  Já os modelos americanos são claramente censurados no nível do conteúdo e fazem ameaças legais vagas a quem encosta na fronteira da censura do modelo
- Existe algum termo técnico para esse fenômeno? Chutar a escada?
  https://blog.google/innovation-and-ai/technology/safety-secu...
- Se LLM é o novo compilador, então publicar junto com o código também os prompts, cadeia de pensamento e respostas talvez seja uma boa forma de enfrentar essas restrições
  Em vez de postar só o resultado final e falar vagamente em comentário do Hacker News ou thread no Twitter como foi o prompting, isso equivale ao código-fonte de fato
- Para mim pode, para você não
É como se a JetBrains dissesse: “Você não pode desenvolver a próxima geração de IDE com IntelliJ Idea. Se detectarmos isso, podemos inserir alguns erros de compilação”
- Assustador. Se o Gradle quebrasse, eu provavelmente mal perceberia
- Na prática, seriam erros de runtime
- É a versão moderna do Stuxnet
“Só há uma maneira de suprimir e desarmar efetivamente o avanço de uma civilização por um longo período: matar a ciência dessa civilização.” — Cixin Liu, The Three-Body Problem
Isso me fez pensar imediatamente nos Sophons, que manipulavam discretamente os sensores de aceleradores de partículas para impedir a humanidade de avançar no conhecimento de física de partículas de alto nível
- Se nerds de software quiserem parar o avanço da IA, vai ser necessário um nível de repressão parecido com o necessário para nerds ucranianos pararem o avanço dos drones
- Minha cabeça foi para o atual governo dos EUA. Suspiro. A sua escolha foi melhor
Considerando a alta taxa de falso positivo dos mecanismos de segurança em cibersegurança, biologia etc. que as pessoas vêm relatando, há uma boa chance de usuários encontrarem comportamento degradado silenciosamente mesmo sem violar os termos de serviço
No fim, isso vai aparecer na forma como clientes e benchmarkers externos percebem o Fable. Espero que a concorrência force modelos futuros a terem taxas menores de falso positivo
Até lá, a experiência de usuários do Mythos e do Fable provavelmente vai divergir bastante
- É uma política tão obviamente ruim que é difícil entender por que acharam que era uma boa ideia. Num momento em que as pessoas já estão meio paranoicas com quantização de modelo silenciosa para cortar custos, uma política dessas só aumenta a paranoia
Este é um caso interessante que dá um vislumbre das implicações econômicas de RSI/ASI. Se o valor for praticamente infinito, a ponto de destruir todos os mercados, os laboratórios acabarão parando totalmente de disponibilizar modelos e até quebrando promessas contratuais
Porque antes que disputas judiciais fiquem caras demais, eles já terão poder para expulsar concorrentes do mercado
Provedores de nuvem também seguiriam esse caminho: primeiro as empresas pequenas, depois até os hyperscalers. Poderiam fechar completamente as vendas para qualquer um que não fosse laboratório e, em vez de dinheiro, exigir participação societária ou poder direto de decisão
Não existe motivo para a proporção inferência/treinamento ter que ser 80/20, e num evento em que dinheiro se torna sem valor, por maior que seja a disposição de pagar isso não ajuda
- Esse cenário parece sem sentido. Cenários parecidos assumem simultaneamente duas coisas
  A) ASI é desenvolvida e supera o resto da economia mundial
  B) ainda assim o mundo continua tendo Estado de direito, contratos, negócios e um sistema financeiro bem desenvolvido
  Se você assume A e B ao mesmo tempo, pode chegar a muitas conclusões estranhas, mas um desdobramento mais plausível é que, se A acontecer, B logo deixará de ser verdade
  Se uma empresa tiver ASI, ela vai parar de se importar com negócios, dinheiro e economia, e o resultado passa a ser algo como “dominar o mundo”, “fazer upload do conselho para uma frota de sondas von Neumann” ou “falhar e todo mundo morrer”
- Não existe nada infinitamente valioso
- Se você acha que LLMs, do jeito que estão agora, são úteis, ou que algum dia serão úteis para alguém além de pessoas preguiçosas que gostam de produzir lixo, isso beira o delírio
Hoje parece haver um fosso defensável, mas ele deve ficar mais raso a cada ano
Treinar um novo modelo do zero exige recursos enormes, mas o pós-treinamento/ajuste fino de modelos existentes custa muito menos
Há dois anos, o conhecimento desse processo era estranho para não especialistas, mas agora já dá para perguntar passo a passo a um dos modelos atuais e até criar as ferramentas junto com ele
Alguns projetos de fim de semana recentes foram exatamente assim. Coisas como “vamos fazer um LoRA”, “vamos gerar um corpus de dados de treino para ajuste fino de um modelo para a tarefa X” e “como coloco o meu rosto em um modelo de texto-para-imagem?”
Tudo isso já é possível com hardware local bem modesto, como algumas GPUs antigas, ou um Strix Halo, DGX Spark, um Mac Studio grande, e dependendo da escala também com computação em nuvem de alguns dólares a alguns milhares de dólares
Ao ampliar isso para o nível de empresa ou startup, e considerando o dinheiro que entrou em IA nos últimos anos, é óbvio que haverá mais concorrência justamente quando os principais fornecedores de modelos precisarem começar a extrair receita de verdade
Ver o custo de usar Claude inflar cria muito mais oportunidades para procurar maneiras de fazer a mesma coisa por bem menos dinheiro. Dá para pagar com facilidade US$ 100–200 por mês pelo Claude Code, que chega perto do melhor modelo para programação, mas se empurrarem para cobrança por uso, rapidamente fica difícil sustentar
Então eles precisam continuar sendo uma das quase únicas formas de resolver os problemas mais difíceis, e os custos das alternativas também precisam continuar parecidos. Dá até para esperar que OpenAI e Google também aumentem os preços
Mas é difícil esperar isso de todo mundo, especialmente de empresas chinesas, cuja estrutura econômica é diferente. E também é difícil esperar que as empresas não olhem para o próprio uso e perguntem: “será que não dá para treinar um modelo especializado menor só para executar esta única tarefa que mais consome a API da Anthropic?”
Espero que, quando eles falam disso, estejam se referindo apenas a usos como empresas chinesas de modelos destilando o Claude. Espero que não estejam tentando bloquear até coisas como “como ajustar o Gemma 4 para escrever no meu estilo?”
- Que fosso? Há várias empresas oferecendo modelos de fronteira pareto-ótimos, e dá para fazer isso com algo como O(10) pessoas
  O resto é intensivo em capital, e o preço com o tempo vai se aproximar do custo de produção
  Ver isso como um negócio de alta lucratividade é como dizer que, porque caldeiras são caras, usinas a carvão têm margens ótimas
Lendo sem boa vontade, isso parece significar que “engenheiros/cientistas de aprendizado de máquina querem automatizar todos os trabalhos, exceto o deles”
- Lendo com boa vontade, significa que isso é inevitável por causa das restrições em nome da “segurança”, ou seja, do elemento que separa Fable de Mythos
  Porque, se qualquer pessoa pudesse criar o próprio Mythos, acabaria contornando as proteções
  Só que isso mostra ainda melhor o quão estranha essa situação é
- Estabilidade no emprego instantânea
Eles têm um sistema silencioso de enfraquecimento no modelo e estão falando disso abertamente. A pergunta óbvia é: isso já está sendo usado em que medida?
Os concorrentes estão sendo enfraquecidos?
Usuários que não são americanos recebem código pior?
Assim como jogos online maximizam engajamento ao influenciar vitórias e derrotas via matchmaking, eles estão punindo ou recompensando usuários?
- Dá um arrepio na espinha. Por um tempo, não vou usar o Fable na minha pesquisa. Não vale a pena correr o risco de ser sabogado pelo modelo
- $$$$$$: sem enfraquecimento
  $$$$: um pouco enfraquecido
  $$$: mais enfraquecido
  $$: você é pobre?
  $: continue como subclasse permanente
“O Claude agora pode ser silenciosamente enfraquecido. A Anthropic decidiu não avisar os usuários se isso acontecer.” O quê!!

Mesmo que o Claude Fable pare de ajudar, o usuário não consegue saber

Problema central

Desenvolvimento de produto e o problema da fronteira

Risco de cadeia de suprimentos da Anthropic

Problema de confiança

Leituras relacionadas

2 comentários

Opiniões no Lobste.rs

Comentários do Hacker News