- Um modelo de assistência para programação pode limitar sua eficácia em pedidos relacionados ao desenvolvimento de LLMs concorrentes sem avisar o usuário, criando um risco de cadeia de suprimentos para a confiança em ferramentas de desenvolvimento
- A Anthropic introduziu no Fable 5 uma limitação de eficácia para pedidos ligados ao desenvolvimento de LLMs de fronteira, e essa limitação é invisível para o usuário
- Em vez de fazer fallback para outro modelo, a limitação funciona reduzindo a eficácia por meio de métodos como modificação de prompt, vetores de steering e PEFT
- Até empresas de software comuns usam embeddings, rerankers, sistemas de recomendação e ajuste fino/hospedagem de LLMs pequenos, o que torna mais nebulosa a fronteira entre pesquisa de IA de fronteira e desenvolvimento de produto
- Quando o Claude dá respostas ruins durante tarefas com componentes de IA, o usuário não consegue saber se isso ocorreu por confusão do modelo, contexto incorreto ou uma limitação de política oculta
Problema central
- No model card do Fable 5, há uma indicação de que foi implementada uma nova intervenção para limitar a eficácia do Claude em solicitações voltadas ao desenvolvimento de LLMs de fronteira
- Exemplos citados de aplicação incluem construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuído e design de aceleradores de ML
- A Anthropic afirma que usar o Claude para desenvolver modelos concorrentes já viola os termos de serviço
- Diferentemente das intervenções para cibersegurança, biologia/química e tentativas de destilação, essa limitação não é visível para o usuário
- O Fable 5 não faz fallback para outro modelo; ele limita a eficácia usando métodos como modificação de prompt, vetores de steering e fine-tuning eficiente em parâmetros (PEFT)
Desenvolvimento de produto e o problema da fronteira
- Empresas modernas de software estão construindo cada vez mais embeddings próprios, reranking e sistemas de recomendação
- O wanderfugl.com é apresentado como um pequeno app bootstrapped com reranker personalizado e algoritmo de embeddings treinados diretamente
- A Anthropic dá alguns exemplos de “desenvolvimento de IA de fronteira”, mas não fornece uma linha divisória clara
- Técnicas antes restritas a laboratórios de pesquisa em IA agora também são usadas por empresas comuns de software, tornando essa fronteira mais difícil de definir a cada ano
- Startups treinam modelos de embedding, criam rerankers e fazem ajuste fino e hospedagem de LLMs pequenos
Risco de cadeia de suprimentos da Anthropic
- A Anthropic afirma que essas proteções afetam apenas 0,03% dos desenvolvedores
- O problema é que a definição de empresa de IA está mudando
- A maioria das empresas ainda não treina modelos de fronteira hoje, mas os modelos de IA estão cada vez mais presentes no software moderno
- Há 5 anos, criar uma startup era mais próximo de escrever APIs e consultas SQL, mas agora isso frequentemente inclui treinar, ajustar e implantar modelos
- Há 5 anos, um modelo como o CLIP era um projeto de pesquisa em IA de fronteira; hoje, ele já é alvo de fine-tuning até em startups bootstrap de viagens
Problema de confiança
- Ao depurar um pipeline de treinamento de modelos para produto, se o Claude dá respostas ruins, é difícil distinguir a causa
- As causas possíveis incluem confusão do modelo, contexto insuficiente fornecido pelo usuário ou ativação de uma limitação de política oculta
- A Anthropic escolheu explicitamente não avisar o usuário quando esse tipo de limitação estiver em funcionamento
- Se uma ferramenta de desenvolvimento pode parar de otimizar para o sucesso sem avisar o usuário, fica difícil confiar plenamente nessa infraestrutura
1 comentários
Comentários do Hacker News
É difícil ver a atitude da Anthropic desta vez como algo diferente de chutar a escada para trás. Por mais que isso venha embalado como “segurança”, é difícil interpretar com boa vontade
Lembra aquele tipo de senso comum em forma de dark pattern da era Web 1.0, quando links externos eram proibidos, ou a forma como apps sociais impediam exportação de dados e enfraqueciam deliberadamente a interoperabilidade de APIs
Mas isso não é só um fosso de dados, é uma ferramenta. É como uma faca que reduz a capacidade de fazer facas, ou um editor de texto que impede a implementação de editores de texto
É meio chocante e assustador ver as verdadeiras intenções aparecerem tão cedo. Parece que querem substituir toda a engenharia de software pelo próprio produto e depois matar silenciosamente quem estiver criando software concorrente
Nem dá para saber que outros produtos eles vão lançar no futuro. Só resta torcer para você não estar em nenhuma área em que eles queiram entrar. Porque eles vão cortar a ponte
E treinar com meus dados tirados da internet pode? Haha. Parece que os termos de serviço só valem para os outros, não para eles mesmos. Soa parasitário
A mente humana é estruturada em várias camadas para lidar com previsões em diferentes escalas de tempo, e por causa da imprevisibilidade do universo continuam surgindo contradições entre essas camadas. Criamos histórias para suportar isso
Por isso existe controle e existe a ilusão de controle
Destilar a propriedade intelectual dos outros é totalmente aceitável, mas destilar a nossa é violação dos termos de serviço :)
Os modelos chineses sob Apache 2.0 podem ter censura, mas pelo menos não podem te processar nos EUA por encontrar a linha de censura
Já os modelos americanos são claramente censurados no nível do conteúdo e fazem ameaças legais vagas a quem encosta na fronteira da censura do modelo
https://blog.google/innovation-and-ai/technology/safety-secu...
Em vez de postar só o resultado final e falar vagamente em comentário do Hacker News ou thread no Twitter como foi o prompting, isso equivale ao código-fonte de fato
É como se a JetBrains dissesse: “Você não pode desenvolver a próxima geração de IDE com IntelliJ Idea. Se detectarmos isso, podemos inserir alguns erros de compilação”
“Só há uma maneira de suprimir e desarmar efetivamente o avanço de uma civilização por um longo período: matar a ciência dessa civilização.” — Cixin Liu, The Three-Body Problem
Isso me fez pensar imediatamente nos Sophons, que manipulavam discretamente os sensores de aceleradores de partículas para impedir a humanidade de avançar no conhecimento de física de partículas de alto nível
Considerando a alta taxa de falso positivo dos mecanismos de segurança em cibersegurança, biologia etc. que as pessoas vêm relatando, há uma boa chance de usuários encontrarem comportamento degradado silenciosamente mesmo sem violar os termos de serviço
No fim, isso vai aparecer na forma como clientes e benchmarkers externos percebem o Fable. Espero que a concorrência force modelos futuros a terem taxas menores de falso positivo
Até lá, a experiência de usuários do Mythos e do Fable provavelmente vai divergir bastante
Este é um caso interessante que dá um vislumbre das implicações econômicas de RSI/ASI. Se o valor for praticamente infinito, a ponto de destruir todos os mercados, os laboratórios acabarão parando totalmente de disponibilizar modelos e até quebrando promessas contratuais
Porque antes que disputas judiciais fiquem caras demais, eles já terão poder para expulsar concorrentes do mercado
Provedores de nuvem também seguiriam esse caminho: primeiro as empresas pequenas, depois até os hyperscalers. Poderiam fechar completamente as vendas para qualquer um que não fosse laboratório e, em vez de dinheiro, exigir participação societária ou poder direto de decisão
Não existe motivo para a proporção inferência/treinamento ter que ser 80/20, e num evento em que dinheiro se torna sem valor, por maior que seja a disposição de pagar isso não ajuda
A) ASI é desenvolvida e supera o resto da economia mundial
B) ainda assim o mundo continua tendo Estado de direito, contratos, negócios e um sistema financeiro bem desenvolvido
Se você assume A e B ao mesmo tempo, pode chegar a muitas conclusões estranhas, mas um desdobramento mais plausível é que, se A acontecer, B logo deixará de ser verdade
Se uma empresa tiver ASI, ela vai parar de se importar com negócios, dinheiro e economia, e o resultado passa a ser algo como “dominar o mundo”, “fazer upload do conselho para uma frota de sondas von Neumann” ou “falhar e todo mundo morrer”
Hoje parece haver um fosso defensável, mas ele deve ficar mais raso a cada ano
Treinar um novo modelo do zero exige recursos enormes, mas o pós-treinamento/ajuste fino de modelos existentes custa muito menos
Há dois anos, o conhecimento desse processo era estranho para não especialistas, mas agora já dá para perguntar passo a passo a um dos modelos atuais e até criar as ferramentas junto com ele
Alguns projetos de fim de semana recentes foram exatamente assim. Coisas como “vamos fazer um LoRA”, “vamos gerar um corpus de dados de treino para ajuste fino de um modelo para a tarefa X” e “como coloco o meu rosto em um modelo de texto-para-imagem?”
Tudo isso já é possível com hardware local bem modesto, como algumas GPUs antigas, ou um Strix Halo, DGX Spark, um Mac Studio grande, e dependendo da escala também com computação em nuvem de alguns dólares a alguns milhares de dólares
Ao ampliar isso para o nível de empresa ou startup, e considerando o dinheiro que entrou em IA nos últimos anos, é óbvio que haverá mais concorrência justamente quando os principais fornecedores de modelos precisarem começar a extrair receita de verdade
Ver o custo de usar Claude inflar cria muito mais oportunidades para procurar maneiras de fazer a mesma coisa por bem menos dinheiro. Dá para pagar com facilidade US$ 100–200 por mês pelo Claude Code, que chega perto do melhor modelo para programação, mas se empurrarem para cobrança por uso, rapidamente fica difícil sustentar
Então eles precisam continuar sendo uma das quase únicas formas de resolver os problemas mais difíceis, e os custos das alternativas também precisam continuar parecidos. Dá até para esperar que OpenAI e Google também aumentem os preços
Mas é difícil esperar isso de todo mundo, especialmente de empresas chinesas, cuja estrutura econômica é diferente. E também é difícil esperar que as empresas não olhem para o próprio uso e perguntem: “será que não dá para treinar um modelo especializado menor só para executar esta única tarefa que mais consome a API da Anthropic?”
Espero que, quando eles falam disso, estejam se referindo apenas a usos como empresas chinesas de modelos destilando o Claude. Espero que não estejam tentando bloquear até coisas como “como ajustar o Gemma 4 para escrever no meu estilo?”
O resto é intensivo em capital, e o preço com o tempo vai se aproximar do custo de produção
Ver isso como um negócio de alta lucratividade é como dizer que, porque caldeiras são caras, usinas a carvão têm margens ótimas
Lendo sem boa vontade, isso parece significar que “engenheiros/cientistas de aprendizado de máquina querem automatizar todos os trabalhos, exceto o deles”
Porque, se qualquer pessoa pudesse criar o próprio Mythos, acabaria contornando as proteções
Só que isso mostra ainda melhor o quão estranha essa situação é
Eles têm um sistema silencioso de enfraquecimento no modelo e estão falando disso abertamente. A pergunta óbvia é: isso já está sendo usado em que medida?
Os concorrentes estão sendo enfraquecidos?
Usuários que não são americanos recebem código pior?
Assim como jogos online maximizam engajamento ao influenciar vitórias e derrotas via matchmaking, eles estão punindo ou recompensando usuários?
$$$$: um pouco enfraquecido
$$$: mais enfraquecido
$$: você é pobre?
$: continue como subclasse permanente
“O Claude agora pode ser silenciosamente enfraquecido. A Anthropic decidiu não avisar os usuários se isso acontecer.” O quê!!