2 pontos por GN⁺ 5 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Um modelo de assistência para programação pode limitar sua eficácia em pedidos relacionados ao desenvolvimento de LLMs concorrentes sem avisar o usuário, criando um risco de cadeia de suprimentos para a confiança em ferramentas de desenvolvimento
  • A Anthropic introduziu no Fable 5 uma limitação de eficácia para pedidos ligados ao desenvolvimento de LLMs de fronteira, e essa limitação é invisível para o usuário
  • Em vez de fazer fallback para outro modelo, a limitação funciona reduzindo a eficácia por meio de métodos como modificação de prompt, vetores de steering e PEFT
  • Até empresas de software comuns usam embeddings, rerankers, sistemas de recomendação e ajuste fino/hospedagem de LLMs pequenos, o que torna mais nebulosa a fronteira entre pesquisa de IA de fronteira e desenvolvimento de produto
  • Quando o Claude dá respostas ruins durante tarefas com componentes de IA, o usuário não consegue saber se isso ocorreu por confusão do modelo, contexto incorreto ou uma limitação de política oculta

Problema central

  • No model card do Fable 5, há uma indicação de que foi implementada uma nova intervenção para limitar a eficácia do Claude em solicitações voltadas ao desenvolvimento de LLMs de fronteira
  • Exemplos citados de aplicação incluem construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuído e design de aceleradores de ML
  • A Anthropic afirma que usar o Claude para desenvolver modelos concorrentes já viola os termos de serviço
  • Diferentemente das intervenções para cibersegurança, biologia/química e tentativas de destilação, essa limitação não é visível para o usuário
  • O Fable 5 não faz fallback para outro modelo; ele limita a eficácia usando métodos como modificação de prompt, vetores de steering e fine-tuning eficiente em parâmetros (PEFT)

Desenvolvimento de produto e o problema da fronteira

  • Empresas modernas de software estão construindo cada vez mais embeddings próprios, reranking e sistemas de recomendação
  • O wanderfugl.com é apresentado como um pequeno app bootstrapped com reranker personalizado e algoritmo de embeddings treinados diretamente
  • A Anthropic dá alguns exemplos de “desenvolvimento de IA de fronteira”, mas não fornece uma linha divisória clara
  • Técnicas antes restritas a laboratórios de pesquisa em IA agora também são usadas por empresas comuns de software, tornando essa fronteira mais difícil de definir a cada ano
  • Startups treinam modelos de embedding, criam rerankers e fazem ajuste fino e hospedagem de LLMs pequenos

Risco de cadeia de suprimentos da Anthropic

  • A Anthropic afirma que essas proteções afetam apenas 0,03% dos desenvolvedores
  • O problema é que a definição de empresa de IA está mudando
  • A maioria das empresas ainda não treina modelos de fronteira hoje, mas os modelos de IA estão cada vez mais presentes no software moderno
  • Há 5 anos, criar uma startup era mais próximo de escrever APIs e consultas SQL, mas agora isso frequentemente inclui treinar, ajustar e implantar modelos
  • Há 5 anos, um modelo como o CLIP era um projeto de pesquisa em IA de fronteira; hoje, ele já é alvo de fine-tuning até em startups bootstrap de viagens

Problema de confiança

  • Ao depurar um pipeline de treinamento de modelos para produto, se o Claude dá respostas ruins, é difícil distinguir a causa
  • As causas possíveis incluem confusão do modelo, contexto insuficiente fornecido pelo usuário ou ativação de uma limitação de política oculta
  • A Anthropic escolheu explicitamente não avisar o usuário quando esse tipo de limitação estiver em funcionamento
  • Se uma ferramenta de desenvolvimento pode parar de otimizar para o sucesso sem avisar o usuário, fica difícil confiar plenamente nessa infraestrutura

1 comentários

 
GN⁺ 5 시간 전
Comentários do Hacker News
  • É difícil ver a atitude da Anthropic desta vez como algo diferente de chutar a escada para trás. Por mais que isso venha embalado como “segurança”, é difícil interpretar com boa vontade
    Lembra aquele tipo de senso comum em forma de dark pattern da era Web 1.0, quando links externos eram proibidos, ou a forma como apps sociais impediam exportação de dados e enfraqueciam deliberadamente a interoperabilidade de APIs
    Mas isso não é só um fosso de dados, é uma ferramenta. É como uma faca que reduz a capacidade de fazer facas, ou um editor de texto que impede a implementação de editores de texto

    • Apoiar IA open source está se tornando cada vez mais importante, especialmente do ponto de vista jurídico. Se a Anthropic consegue se mostrar autoritária tão rápido assim, não é difícil imaginar o quanto isso pioraria se ela conseguisse um monopólio concedido pelo governo que proibisse concorrência open source
      É meio chocante e assustador ver as verdadeiras intenções aparecerem tão cedo. Parece que querem substituir toda a engenharia de software pelo próprio produto e depois matar silenciosamente quem estiver criando software concorrente
      Nem dá para saber que outros produtos eles vão lançar no futuro. Só resta torcer para você não estar em nenhuma área em que eles queiram entrar. Porque eles vão cortar a ponte
      E treinar com meus dados tirados da internet pode? Haha. Parece que os termos de serviço só valem para os outros, não para eles mesmos. Soa parasitário
    • É difícil imaginar que eles não aplicariam isso da mesma forma a outros produtos que estão construindo. Pode virar algo como “você não pode criar agentes com Claude porque compete com Claude Code”, “você não pode criar ferramentas de design porque compete com Claude Design”, “você não pode criar ferramentas de e-mail porque compete com Cowork”
    • Isso parece parte do marketing. A Anthropic não está realmente tão à frente dos outros laboratórios, mas anúncios assim fazem parecer que está se aproximando da singularidade
    • A regra de que “só sacerdotes podem entrar no santuário” é tão antiga quanto a sociedade. Ela é criada por um motivo e violada por outro
      A mente humana é estruturada em várias camadas para lidar com previsões em diferentes escalas de tempo, e por causa da imprevisibilidade do universo continuam surgindo contradições entre essas camadas. Criamos histórias para suportar isso
      Por isso existe controle e existe a ilusão de controle
    • No fim das contas, o mais perigoso era a concorrência
  • Destilar a propriedade intelectual dos outros é totalmente aceitável, mas destilar a nossa é violação dos termos de serviço :)

    • Deveríamos exigir licenças aprovadas pela Open Source Initiative para pesos de LLM
      Os modelos chineses sob Apache 2.0 podem ter censura, mas pelo menos não podem te processar nos EUA por encontrar a linha de censura
      Já os modelos americanos são claramente censurados no nível do conteúdo e fazem ameaças legais vagas a quem encosta na fronteira da censura do modelo
    • Existe algum termo técnico para esse fenômeno? Chutar a escada?
      https://blog.google/innovation-and-ai/technology/safety-secu...
    • Se LLM é o novo compilador, então publicar junto com o código também os prompts, cadeia de pensamento e respostas talvez seja uma boa forma de enfrentar essas restrições
      Em vez de postar só o resultado final e falar vagamente em comentário do Hacker News ou thread no Twitter como foi o prompting, isso equivale ao código-fonte de fato
    • Para mim pode, para você não
  • É como se a JetBrains dissesse: “Você não pode desenvolver a próxima geração de IDE com IntelliJ Idea. Se detectarmos isso, podemos inserir alguns erros de compilação”

    • Assustador. Se o Gradle quebrasse, eu provavelmente mal perceberia
    • Na prática, seriam erros de runtime
    • É a versão moderna do Stuxnet
  • “Só há uma maneira de suprimir e desarmar efetivamente o avanço de uma civilização por um longo período: matar a ciência dessa civilização.” — Cixin Liu, The Three-Body Problem
    Isso me fez pensar imediatamente nos Sophons, que manipulavam discretamente os sensores de aceleradores de partículas para impedir a humanidade de avançar no conhecimento de física de partículas de alto nível

    • Se nerds de software quiserem parar o avanço da IA, vai ser necessário um nível de repressão parecido com o necessário para nerds ucranianos pararem o avanço dos drones
    • Minha cabeça foi para o atual governo dos EUA. Suspiro. A sua escolha foi melhor
  • Considerando a alta taxa de falso positivo dos mecanismos de segurança em cibersegurança, biologia etc. que as pessoas vêm relatando, há uma boa chance de usuários encontrarem comportamento degradado silenciosamente mesmo sem violar os termos de serviço
    No fim, isso vai aparecer na forma como clientes e benchmarkers externos percebem o Fable. Espero que a concorrência force modelos futuros a terem taxas menores de falso positivo
    Até lá, a experiência de usuários do Mythos e do Fable provavelmente vai divergir bastante

    • É uma política tão obviamente ruim que é difícil entender por que acharam que era uma boa ideia. Num momento em que as pessoas já estão meio paranoicas com quantização de modelo silenciosa para cortar custos, uma política dessas só aumenta a paranoia
  • Este é um caso interessante que dá um vislumbre das implicações econômicas de RSI/ASI. Se o valor for praticamente infinito, a ponto de destruir todos os mercados, os laboratórios acabarão parando totalmente de disponibilizar modelos e até quebrando promessas contratuais
    Porque antes que disputas judiciais fiquem caras demais, eles já terão poder para expulsar concorrentes do mercado
    Provedores de nuvem também seguiriam esse caminho: primeiro as empresas pequenas, depois até os hyperscalers. Poderiam fechar completamente as vendas para qualquer um que não fosse laboratório e, em vez de dinheiro, exigir participação societária ou poder direto de decisão
    Não existe motivo para a proporção inferência/treinamento ter que ser 80/20, e num evento em que dinheiro se torna sem valor, por maior que seja a disposição de pagar isso não ajuda

    • Esse cenário parece sem sentido. Cenários parecidos assumem simultaneamente duas coisas
      A) ASI é desenvolvida e supera o resto da economia mundial
      B) ainda assim o mundo continua tendo Estado de direito, contratos, negócios e um sistema financeiro bem desenvolvido
      Se você assume A e B ao mesmo tempo, pode chegar a muitas conclusões estranhas, mas um desdobramento mais plausível é que, se A acontecer, B logo deixará de ser verdade
      Se uma empresa tiver ASI, ela vai parar de se importar com negócios, dinheiro e economia, e o resultado passa a ser algo como “dominar o mundo”, “fazer upload do conselho para uma frota de sondas von Neumann” ou “falhar e todo mundo morrer”
    • Não existe nada infinitamente valioso
    • Se você acha que LLMs, do jeito que estão agora, são úteis, ou que algum dia serão úteis para alguém além de pessoas preguiçosas que gostam de produzir lixo, isso beira o delírio
  • Hoje parece haver um fosso defensável, mas ele deve ficar mais raso a cada ano
    Treinar um novo modelo do zero exige recursos enormes, mas o pós-treinamento/ajuste fino de modelos existentes custa muito menos
    Há dois anos, o conhecimento desse processo era estranho para não especialistas, mas agora já dá para perguntar passo a passo a um dos modelos atuais e até criar as ferramentas junto com ele
    Alguns projetos de fim de semana recentes foram exatamente assim. Coisas como “vamos fazer um LoRA”, “vamos gerar um corpus de dados de treino para ajuste fino de um modelo para a tarefa X” e “como coloco o meu rosto em um modelo de texto-para-imagem?”
    Tudo isso já é possível com hardware local bem modesto, como algumas GPUs antigas, ou um Strix Halo, DGX Spark, um Mac Studio grande, e dependendo da escala também com computação em nuvem de alguns dólares a alguns milhares de dólares
    Ao ampliar isso para o nível de empresa ou startup, e considerando o dinheiro que entrou em IA nos últimos anos, é óbvio que haverá mais concorrência justamente quando os principais fornecedores de modelos precisarem começar a extrair receita de verdade
    Ver o custo de usar Claude inflar cria muito mais oportunidades para procurar maneiras de fazer a mesma coisa por bem menos dinheiro. Dá para pagar com facilidade US$ 100–200 por mês pelo Claude Code, que chega perto do melhor modelo para programação, mas se empurrarem para cobrança por uso, rapidamente fica difícil sustentar
    Então eles precisam continuar sendo uma das quase únicas formas de resolver os problemas mais difíceis, e os custos das alternativas também precisam continuar parecidos. Dá até para esperar que OpenAI e Google também aumentem os preços
    Mas é difícil esperar isso de todo mundo, especialmente de empresas chinesas, cuja estrutura econômica é diferente. E também é difícil esperar que as empresas não olhem para o próprio uso e perguntem: “será que não dá para treinar um modelo especializado menor só para executar esta única tarefa que mais consome a API da Anthropic?”
    Espero que, quando eles falam disso, estejam se referindo apenas a usos como empresas chinesas de modelos destilando o Claude. Espero que não estejam tentando bloquear até coisas como “como ajustar o Gemma 4 para escrever no meu estilo?”

    • Que fosso? Há várias empresas oferecendo modelos de fronteira pareto-ótimos, e dá para fazer isso com algo como O(10) pessoas
      O resto é intensivo em capital, e o preço com o tempo vai se aproximar do custo de produção
      Ver isso como um negócio de alta lucratividade é como dizer que, porque caldeiras são caras, usinas a carvão têm margens ótimas
  • Lendo sem boa vontade, isso parece significar que “engenheiros/cientistas de aprendizado de máquina querem automatizar todos os trabalhos, exceto o deles”

    • Lendo com boa vontade, significa que isso é inevitável por causa das restrições em nome da “segurança”, ou seja, do elemento que separa Fable de Mythos
      Porque, se qualquer pessoa pudesse criar o próprio Mythos, acabaria contornando as proteções
      Só que isso mostra ainda melhor o quão estranha essa situação é
    • Estabilidade no emprego instantânea
  • Eles têm um sistema silencioso de enfraquecimento no modelo e estão falando disso abertamente. A pergunta óbvia é: isso já está sendo usado em que medida?
    Os concorrentes estão sendo enfraquecidos?
    Usuários que não são americanos recebem código pior?
    Assim como jogos online maximizam engajamento ao influenciar vitórias e derrotas via matchmaking, eles estão punindo ou recompensando usuários?

    • Dá um arrepio na espinha. Por um tempo, não vou usar o Fable na minha pesquisa. Não vale a pena correr o risco de ser sabogado pelo modelo
    • $$$$$$: sem enfraquecimento
      $$$$: um pouco enfraquecido
      $$$: mais enfraquecido
      $$: você é pobre?
      $: continue como subclasse permanente
  • “O Claude agora pode ser silenciosamente enfraquecido. A Anthropic decidiu não avisar os usuários se isso acontecer.” O quê!!