2 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • No início da adoção de IA nas empresas, o uso de tokens vinculado à avaliação de desempenho pelo tokenmaxxing gerou custos sem sentido, mas também serviu para forçar a disseminação do uso de ferramentas de IA na organização
  • Na Meta, quando o uso individual de tokens passou a ser vinculado à avaliação, surgiram até usos meramente formais, como deixar dois agentes conversando entre si o dia inteiro para aumentar a contagem de tokens
  • No passado, executar agentes por longos períodos era arriscado por causa do erro composto (compounding error), em que pequenos erros se acumulavam, mas recentemente vem ganhando força a ideia de correção composta (compounding correctness), na qual mais tokens produzem resultados melhores
  • Na área de segurança, surgiram abordagens que investem grandes orçamentos de tokens em modelos como o Mythos para encontrar vulnerabilidades, criando uma estrutura em que defensores precisam gastar mais computação do que atacantes
  • Daqui em diante, em vez de gastar sem limites com modelos topo de linha caros, o centro prático do tokenmaxxing pode passar a ser rodar mais vezes modelos abertos baratos em loops

Tokenmaxxing começou com consumo inútil de tokens

  • tokenmaxxing se refere ao fenômeno em que executivos incentivam funcionários a usar muitos tokens, fazendo com que tokens sejam consumidos até em tarefas de baixo valor real
  • Um caso representativo é o da Meta, que foi criticada por supostamente vincular avaliações de desempenho ao uso individual de tokens
    • Um funcionário da Meta contou que deixou dois agentes conversando entre si o dia inteiro para aumentar sua contagem de tokens
  • Por fora, parecia que a liderança estava apenas queimando custos sem receita, mas também dá para ver isso como uma política para forçar a disseminação do uso de ferramentas de IA
  • Até poucos meses atrás, dentro das organizações havia muitos profissionais seniores que resistiam fortemente ao uso de ferramentas de IA e, mesmo quando eram convencidos, às vezes usavam as ferramentas de maneiras estranhas ou propensas a gerar resultados ruins
  • Nesse cenário, a pressão de cima para usar tokens funcionou como um instrumento bruto de coerção para atravessar essa barreira

A primeira política de uso ilimitado acabou sob pressão de custos

  • As políticas de tokenmaxxing tiveram algum efeito e, hoje, quase todas as equipes já programam com IA ao menos um pouco
  • Muitas equipes ainda não conseguiram criar sistemas próprios como Ramp Inspect ou Stripe Minions, mas chegaram ao nível básico de usar o Cursor na barra lateral
  • Em meio ao forte aumento no uso de tokens, OpenAI e Anthropic, enquanto buscam abrir capital, limitaram a oferta incluída nas assinaturas e elevaram os preços de API
  • Com a redução dos subsídios a tokens, algumas equipes passaram a reverter políticas de uso ilimitado
  • O tokenmaxxing ilimitado, no sentido anterior, está chegando a uma fase em que fica difícil resistir a uma revisão de custos

De erro composto para correção composta

  • A expectativa sobre ferramentas de IA é que elas lidem com trabalhos difíceis e tediosos sem supervisão humana constante
    • Grandes migrações de código
    • Pesquisa diária sobre concorrentes pela manhã
    • Processamento de fluxos inbound e outbound
  • No passado, quanto mais tempo a IA rodava, mais os pequenos erros e alucinações do modelo se acumulavam dentro do projeto, tornando-se difíceis de reverter
  • Esse fenômeno era chamado de erro composto (compounding error) e, como exigia muita supervisão humana, havia poucos motivos para deixar agentes rodando 24 horas
  • Agora, o ambiente está mudando para uma correção composta (compounding correctness), em que gastar mais tokens aumenta a probabilidade de uma resposta correta
  • Se o gasto com tokens estiver ligado à qualidade do resultado, surge novamente o incentivo para usar muitos tokens

A corrida por orçamento de tokens aparece primeiro na segurança

  • Em cibersegurança, já há casos em que o gasto com tokens se conecta diretamente ao desempenho
  • Cybersecurity is Proof of Work Now cita o Mythos da Anthropic como exemplo e argumenta que, para fortalecer sistemas, é preciso gastar mais tokens encontrando vulnerabilidades do que os atacantes gastam para explorá-las
  • A AISI definiu um orçamento de 100M tokens por tentativa do Mythos, o que equivale a US$ 12.500 por tentativa e US$ 125.000 para 10 execuções
  • Os modelos que receberam orçamento de 100M tokens não mostraram sinais de retornos decrescentes, e a AISI afirmou que, dentro da faixa de orçamentos de tokens testada, os modelos continuaram avançando conforme o orçamento aumentava
  • Nessa estrutura, a quantidade de computação e o orçamento de tokens que se consegue pagar se tornam mais importantes que esperteza

Loops e execução prolongada de agentes

  • O interesse em loops, mencionado por Boris Cherny no palco do Claude Code, também se conecta a essa mesma tendência
  • A estrutura básica dos loops é executar o agente até ele encerrar seu turno e, quando terminar, reiniciar o mesmo prompt
  • Isso permite dividir automaticamente especificações pesadas e fazer o agente resolvê-las por partes ao longo do tempo
  • O conceito não é novo; existe desde julho do ano passado e chegou a ser chamado de “Ralph Wiggum loop”
  • Antes, era necessário entender profundamente o design de prompts e o comportamento dos agentes, mas, graças à correção composta, ficou mais fácil esperar resultados aproximados que melhoram com a repetição

Modelos abertos viabilizam repetição com melhor custo-benefício

  • No longo prazo, o vencedor do tokenmaxxing pode ser uma plataforma de modelos abertos
  • Gastar tokens em massa com modelos dos laboratórios de ponta dificilmente passa pela revisão do CFO
  • À medida que os modelos abertos melhoram, fica mais atraente rodar modelos baratos mais vezes dentro de loops
  • Por exemplo, se o Claude dá uma melhoria de 1,1x por repetição e o GLM 5.2 dá 1,05x, mas custa cerca de um quinto, pode ser melhor rodar o loop do GLM 5.2 cinco vezes mais
  • Na seção “Other things”, o GLM 5.2 também é avaliado como não sendo estado da arte, mas muito mais barato que modelos frontier
    • GLM 5.2: cerca de US$ 1,4 por 1 milhão de tokens de entrada e cerca de US$ 4 por 1 milhão de tokens de saída
    • Série Opus 4.X: US$ 5 por 1 milhão de tokens de entrada e US$ 25 por 1 milhão de tokens de saída
    • Haiku 4.5: US$ 1 por 1 milhão de tokens de entrada e US$ 5 por 1 milhão de tokens de saída
    • Dizem que o GLM 5.2 é mais forte que o Haiku e, em alguns benchmarks, pode até ser mais forte que o GPT 5.5

Diferença entre gasto para desenvolvedores e gasto para pipelines

  • Há duas formas diferentes de tokenmaxxing
  • A primeira é o gasto de tokens para desenvolvedores
    • Desenvolvedores usam ferramentas como Claude Code, executam loops e consomem muitos tokens
    • Se isso aumenta a produtividade de engenharia, pode ser um bom gasto
  • A segunda é o gasto de tokens para pipelines
    • O desenvolvedor ainda escreve código manualmente e, com esse código, cria agentes de uso único para tarefas específicas
    • Esses agentes operam de forma não determinística e frágil, consumindo muitos tokens
    • Só é um bom gasto quando o pipeline realmente funciona, mas esses agentes não eram tão precisos quanto pipelines determinísticos
  • Se, para reduzir o custo de alucinações, você adiciona um agente de verificação de qualidade e depois outro agente para capturar os erros desse agente de verificação, o custo de tokens triplica
  • Ferramentas de pipeline de uso único tendem cada vez mais a ser tratadas não como agentes para tarefas específicas, mas como plataformas de uso geral envoltas em uma camada adaptada à tarefa específica

Fábricas de software e gasto extremo com tokens

  • O ponto final natural é a fábrica de software e, mais adiante, a fábrica escura
  • Nessa estrutura, a base de código cria código, revisa, corrige bugs e escreve testes sem supervisão humana
  • A pessoa fica apenas com o papel de inserir a especificação e receber a aplicação
  • A fábrica de software da StrongDM é citada como um caso que leva essa direção ao extremo
  • A StrongDM argumentou que engenheiros deveriam mirar em gastar US$ 1000 por dia em tokens, mas isso é avaliado como algo com forte tom de exagero e marketing
  • Sua própria fábrica de software gastaria cerca de US$ 600 por mês, e gastar hoje em tokens o equivalente ao custo de um engenheiro sênior do Google por engenheiro é visto como excessivo
  • Ainda assim, o incentivo para gastar muito dinheiro com tokens existe potencialmente e ainda aguarda disseminação

1 comentários

 
GN⁺ 4 시간 전
Opiniões no Hacker News
  • Tokenmaxxing foi apenas uma forma de forçar os funcionários a fazer a transição para um uso significativo de IA
    Empresas que mediam desempenho pelo gasto de tokens agora podem reduzir essa intensidade. Os funcionários aprenderam o que é possível e o que não é ao experimentar IA até em tarefas nas quais antes não a teriam usado
    Ninguém é tolo a ponto de usar o gasto com tokens como critério de desempenho para sempre e conceder orçamento ilimitado. Vejo isso, em primeiro lugar, como uma medida temporária para levar os funcionários a um novo ambiente
    A liderança sentia que os funcionários não estavam usando IA rápido o suficiente, e por isso houve muitos artigos na mídia mainstream em 2025 sobre CEOs pressionando, dizendo que demitiriam quem não usasse IA. Tokenmaxxing era o extremo oposto, e as empresas acabarão chegando a um ponto de equilíbrio
    Não precisa pensar demais nisso
    Além disso, uma resposta citou este post no X como exemplo de por que a liderança precisou tomar esse tipo de medida. Mudar uma empresa com centenas/milhares/dezenas de milhares de pessoas é difícil, e é preciso enviar uma mensagem simples de cada vez. https://x.com/danluu/status/1487228574608211969?lang=en

    • A insinuação de que Tokenmaxxing foi uma abordagem intencional e cuidadosa é engraçada demais
      Na prática, parece mais um caso de uma camada gerencial super-remunerada, distante demais do local onde o valor é criado para entender as fraquezas dos LLMs, seguindo cegamente uma moda
    • Ao ouvir a lógica usada por VPs e executivos do alto escalão durante a febre do Tokenmaxxing, a interpretação de que era uma “medida intencional para fazer os funcionários usarem IA de forma significativa” parece caridosa demais
      Na maioria das empresas, na melhor das hipóteses, o foco era “os outros estão fazendo, então nós também vamos fazer”; na pior, era algo mais próximo de “vamos ver se o desenvolvedor Joe consegue ser tão produtivo quanto a equipe inteira e demitir o resto”
      De fato, muitas empresas também demitiram funcionários em massa alegando “baixo gasto de tokens e desempenho insuficiente”
    • Isso chega perto da explicação mais generosa que um ser humano poderia dar
      Neste caso específico de estupidez da liderança, pode simplesmente se aplicar literalmente, mas, de modo mais geral, é uma bela peça de escrita
      Eu gostaria de conseguir ter uma crença tão equivocada assim em qualquer ser humano, quanto mais em um CEO
    • Lembro de uma história que vi no HN tempos atrás. Dizia que, quanto maior a organização, mais simples precisam ser a mensagem e as ferramentas para alcançar todo mundo
      A pessoa, que na época era júnior, contou que sua empresa havia introduzido algo como “Tokenmaxxing” para testes A/B. Quanto mais testes você fizesse, melhor seria para sua avaliação de desempenho; na época ela achou idiota, mas no fim isso teve o efeito de familiarizar todos com o que é um experimento e como executá-lo
    • Em uma equipe pequena com um gerente promovido internamente, essa intenção poderia realmente ter existido
      Mas, em uma grande empresa, é muito mais provável que gerentes tenham sido pressionados por VPs a fazer IA, e que os VPs tenham sido pressionados pela diretoria. A diretoria provavelmente foi pressionada a apresentar alguma estratégia de IA plausível e quase mágica que expandisse a empresa infinitamente enquanto cortava custos
      Nesse ambiente, parece mais plausível copiar e colar gráficos do Gartner, misturar buzzwords ouvidas em conferências e torcer para que alguém, em algum lugar, algum dia, transforme isso em algo que pareça progresso
  • Já ouço há pelo menos um ano que “agora é diferente, agentes acumulam sucessos, não erros”, mas ainda não parece ser o caso
    Por sorte, recebi uma formação em IA de uma semana, de 50 mil dólares por pessoa, dada por gente que falava isso; uma das recomendações concretas que pelo menos ajudava era limpar o contexto com frequência para evitar que o trabalho saísse dos trilhos
    Dito isso, isso pode não importar na busca por vulnerabilidades de segurança. Tokenmaxxing é claramente eficaz para esse uso. O setor está agora adotando uma forma muito cara e complexa de fuzzing contínuo

    • É surpreendente que não existam ferramentas centradas nisso, já que até os modelos de fronteira mais recentes se beneficiam enormemente de poda de contexto cuidadosa, manutenção e reescrita para apagar erros
      Ferramentas que antes tinham esse recurso, como o Zed e depois o Text Threads, também já o removeram
    • Uma formação em IA de uma semana por 50 mil dólares por pessoa soa como uma picaretagem difícil de acreditar
      Fico curioso para saber quem era, para que alguém pudesse achar que esse investimento valia a pena
  • A frase “imagine um líder empresarial sério, como Mark Zuckerberg, anunciando que a Meta vai queimar dinheiro” lembra, por exemplo, declarar uma virada para o metaverso e até mudar o nome da empresa para demonstrar seriedade

  • A parte “usar mais tokens geralmente gera resultados melhores. Chamamos isso de ‘juros compostos da precisão’” é estranha
    Será que realmente entramos nessa fase? É geralmente verdade que usar mais tokens costuma produzir resultados melhores? Essa visão é tão estranha que me pergunto se o autor não tem interesse financeiro em Tokenmaxxing

    • Talvez tenha uma boa participação em NVDA
  • Isso é infernal. Se o inferno fosse ficar preso para sempre em uma montanha-russa desconfortável e mal mantida, seria exatamente essa sensação

  • Um título mais adequado ao conteúdo do texto teria sido “As notícias sobre a morte do Tokenmaxxing foram muito exageradas”
    Pessoalmente, odeio o uso desse clichê de título sem sentido do tipo “x está morto, viva x”

    • “viva x” é um meme preguiçoso que permite chamar atenção sem precisar pensar em um título de verdade
    • Esse título é melhor! Adicionei como subtítulo
  • O que significa loop aqui? Repetir o mesmo prompt até obter o resultado desejado? Os resultados repetidos não seriam muito parecidos entre si?

    • Parece que agora existe “engenharia” de loop, assim como “engenharia” de prompt
      https://github.com/topics/loop-engineering
    • Não necessariamente até chegar ao resultado desejado, mas mais até o próprio LLM julgar que está “concluído” segundo critérios dados
      Esses critérios muitas vezes são apenas uma lista de tarefas atualizada. Um desses “harnesses” extremamente simples chegou a ser chamado de Ralph Wiggum Loop[1], em alusão ao Tokenmaxxing meio sem cérebro, mas persistente, que resulta disso
      [1] https://awesomeclaude.ai/ralph-wiggum
  • Esse tipo de coisa parece se repetir na maioria dos primeiros anos de adoção de grandes tecnologias
    No boom de big data do começo dos anos 2010, executivos também compravam primeiro clusters Spark e data lakes, sem casos de uso analítico claros nem governança

  • “Quase nunca ouvi um líder empresarial dizer que vai queimar dinheiro para se sentir bem” — sério?
    Cerca de quatro anos atrás, nosso CEO trouxe consultores de avião várias vezes para exercícios de team building. Não conseguimos bancar a troca de servidores a cada ciclo de três anos, mas pagamos esses consultores sem problema
    Recentemente, também chamamos consultores de branding e gastamos milhares de dólares em AWS para rebrandear todas as fotos. Operamos em um mercado cativo. Para vender no nosso mercado, é obrigatório assinar nosso serviço; fora dele, nem é possível assinar. No fim, o branding aumenta a receita em exatamente 0
    Em uma empresa onde trabalhei antes, uma das primeiras coisas que o novo CTO fez também foi criar regras de renomeação de servidores. Era um esquema com nomes de cidades do mundo todo, desconhecidas para funcionários centrados nos EUA: servidores de banco de dados eram cidades suíças, servidores web eram dinamarquesas, armazenamento era finlandês. Saímos de nomes tratados como gado para nomes de pets, e esse CTO durou cerca de seis meses
    Pela minha experiência, a liderança das empresas não é tão frugal quanto este texto imagina

    • Também é surpreendente como muita gente é ingênua em relação às empresas. Parece que acreditaram completamente no ditado de que “o capitalismo é eficiente
      É difícil imaginar alguém trabalhando em um ambiente corporativo sem nunca ter visto exemplos óbvios desse tipo de desperdício. Consultores super-remunerados e verbas que precisam ser gastas são casos clássicos
      O filme Office Space saiu há 27 anos e tem uma trama que zomba de “consultores de eficiência” pagos em excesso cuja função é basicamente dizer à gerência para demitir pessoas
    • Para ser justo, líderes geralmente não dizem isso de forma tão direta. Eles apenas soltam uma salada de palavras que significa “vou queimar dinheiro porque isso me faz sentir bem”
      Mais precisamente, é algo mais próximo de “porque isso ajuda minha carreira”