2 pontos por GN⁺ 12 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Uma ferramenta de cálculo para analisar o problema em que, devido ao novo tokenizer do Opus 4.7, o mesmo prompt é contabilizado com mais tokens
  • A mesma entrada é mapeada para 1,0 a 1,35x mais tokens dependendo do tipo de conteúdo, aumentando o custo por solicitação mesmo sem mudar as palavras
  • Na contagem real, o Opus 4.7 mostrou aumento médio de +37,4% tanto em tokens por solicitação quanto em custo por solicitação em comparação com o Opus 4.6
  • Com base nas 50 comparações mais recentes, o aumento varia de +19,0% até +86,2%, com muitos casos distribuídos nas faixas de +30% e +40%
  • Nesta página, é possível colar conversas, prompts de sistema e textos para ver uma comparação detalhada da diferença de contagem de tokens entre Opus 4.7 e 4.6 e do custo com base nos preços atuais

Contexto de criação desta ferramenta

  • No anúncio de lançamento do Opus 4.7, ele foi apresentado como um upgrade direto em relação ao Opus 4.6, mas há duas mudanças que afetam o uso de tokens
    • Com o tokenizer atualizado, a mesma entrada passa a ser mapeada para 1,0 a 1,35x mais tokens, dependendo do tipo de conteúdo
    • Em níveis de effort mais altos, especialmente nos turnos finais de ambientes agentic, o modelo raciocina mais, aumentando o número de tokens de saída
  • A confiabilidade em problemas difíceis melhora, mas isso impacta diretamente a estrutura de custos baseada em tokens

Impacto para o usuário

  • Mesmo com o mesmo texto de prompt, o Opus 4.7 contabiliza mais tokens, elevando o custo por solicitação mesmo sem alterar a redação
  • O Tokenomics permite colar qualquer conversa, prompt de sistema ou texto para verificar diretamente a diferença de tokens entre Opus 4.7 e 4.6
  • Também calcula a diferença concreta de custo com base nos preços atuais

Página de médias da comunidade

  • A página /leaderboard agrega dados anônimos de comparação enviados pelos usuários da ferramenta
  • É possível ver, com base em uso real, a média de aumento de tokens por diferentes tipos de prompt

Pontos a observar

  • Texto do prompt não é armazenado: a entrada é processada no navegador e enviada ao servidor, que a repassa para a API de contagem de tokens da Anthropic; o texto do prompt não é salvo no banco de dados, apenas métricas anônimas de contagem de tokens são armazenadas
  • Não é um produto oficial da Anthropic: foi criado por Bill Chambers e não possui relação de afiliação, endosso ou patrocínio com a Anthropic
  • Open source: o código-fonte completo está disponível no GitHub (bllchmbrs/tokensmatter), e contribuições e feedback são bem-vindos

Médias da comunidade

  • Com base em comparações de solicitações reais enviadas anonimamente, foram agregadas as diferenças de tokens e custo por solicitação do Opus 4.7 em relação ao Opus 4.6
    • Total agregado com base em 425 envios
    • A lista de comparações recentes mostra as 50 mais recentes, ordenadas da mais nova para a mais antiga
  • Variação média de tokens por solicitação: +37,4%
  • Variação média de custo por solicitação: +37,4%
  • Tamanho médio da solicitação: 369 / 495
    • O texto original não fornece explicação adicional para esses dois valores

Exemplos recentes de comparações anônimas

  • Na tabela das 50 comparações mais recentes, a maioria dos casos registra o mesmo percentual de aumento em tokens por solicitação do Opus 4.7 e em custo
    • Exemplo 1: envio 6b5d3ebf, solicitação 23 → 31, custo $0.000345 → $0.000465, variação +34,8%
    • Exemplo 2: envio 1363973a, solicitação 99 → 130, custo $0.001485 → $0.001950, variação +31,3%
    • Exemplo 3: envio 17a9645e, solicitação 16 → 20, custo $0.000240 → $0.000300, variação +25,0%
  • O aumento também aparece em solicitações pequenas
    • envio 10c3149a, solicitação 8 → 14, custo $0.000120 → $0.000210, variação +75,0%
    • envio 8f58e536, solicitação 8 → 13, custo $0.000120 → $0.000195, variação +62,5%
    • envio 942f5d38, solicitação 12 → 19, custo $0.000180 → $0.000285, variação +58,3%
  • Casos semelhantes se repetem também em solicitações de porte médio
    • envio 67f5f437, solicitação 188 → 275, custo $0.002820 → $0.004125, variação +46,3%
    • envio 04249c86, solicitação 176 → 256, custo $0.002640 → $0.003840, variação +45,5%
    • envio af25da70, solicitação 269 → 501, custo $0.004035 → $0.007515, variação +86,2%
  • Um padrão semelhante também é observado em solicitações grandes
    • envio c5d75d71, solicitação 2,263 → 3,282, custo $0.0339 → $0.0492, variação +45,0%
    • envio 4db385b5, solicitação 1,592 → 2,205, custo $0.0239 → $0.0331, variação +38,5%
    • envio 68375705, solicitação 4,449 → 6,434, custo $0.0667 → $0.0965, variação +44,6%
  • Há também vários envios com os mesmos números repetidos
    • Casos de solicitação 175 → 221, custo $0.002625 → $0.003315, variação +26,3% se repetem em vários IDs de envio
    • Casos de solicitação 996 → 1,392, custo $0.0149 → $0.0209, variação +39,8% se repetem em vários IDs de envio
    • Casos de solicitação 43 → 61, custo $0.000645 → $0.000915, variação +41,9% se repetem em vários IDs de envio

1 comentários

 
GN⁺ 12 일 전
Comentários no Hacker News
  • Acho que, para comparar de forma justa, é preciso olhar o custo total. O 4.7 usa bem menos tokens de saída que o 4.6, e o custo de raciocínio também parece ter caído bastante. Olhando a comparação do Artificial Analysis, o 4.7 sai um pouco mais barato que o 4.6, e o 4.5 fica quase pela metade. Em especial, chama atenção que o custo de reasoning praticamente caiu pela metade na transição do 4.6 para o 4.7. Ainda assim, em cargas reais como Claude Code, tanto a entrada quanto o raciocínio parecem ter peso grande, então ainda não tenho noção de como o aumento no preço da entrada e a queda no preço do raciocínio vão se compensar. Tarefas com muito raciocínio podem ficar mais baratas, mas tarefas com pouco raciocínio talvez acabem ficando mais caras. Para esse tipo de trabalho, eu provavelmente usaria Codex

    • Acho que o fato de o 4.7 pensar menos e gerar menos saída se deve ao forced adaptive thinking. Usuários de API também não podem desligar isso, e é justamente o mesmo mecanismo que causava problemas de qualidade no Opus 4.6 há apenas 2 semanas. Na época também houve opiniões pedindo desativação, e lembro até de casos em que os tokens de pensamento eram alocados como 0. Ainda hoje há muita gente reclamando de queda de qualidade no Opus 4.7, e eu mesmo vejo erros bem básicos com frequência. Ele queima tokens por 10 minutos e, na prática, nem lê o código direito, fica só no hand-waving, e depois mais tarde acaba se contradizendo. Tenho dificuldade de confiar no Opus com adaptive thinking ligado. Se necessário, posso até fornecer IDs de feedback de sessão
    • Algumas pessoas acham que, mesmo com o mesmo número de modelo, o comportamento e o uso de tokens mudam com o tempo, então um teste do mesmo modelo em momentos diferentes seria mais justo. Mesmo que o nome da versão seja igual, o funcionamento interno pode mudar, então um resultado de teste recente pode não ser apropriado como base para comparações futuras
  • Pela minha percepção, quase não senti melhora de desempenho do 4.6 para o 4.7, mas a velocidade de consumo do limite ficou muito clara. Ontem gastei o limite de 5 horas em 2 horas, e quando liguei o batched mode para refatorar, ele consumiu 30% do limite em 5 minutos, então cancelei. Depois mudei para o modo serial e consumiu menos, mas ainda assim ficou evidente que gastava muito mais rápido do que o 4.6. Agora parece que cada conversa consome cerca de 5% do limite de 5 horas, enquanto antes era algo em torno de 1~2%. Eu estou no plano Max 5x, então ainda tenho bastante folga no limite semanal e dá para aguentar, mas queria pelo menos que explicassem isso com mais transparência ou melhorassem esse ponto. A configuração de effort também continua opaca demais, então ajuda menos do que deveria na prática

    • O mais irritante é a queda de qualidade causada pela aplicação forçada de adaptive thinking. Ele consome 5~10% do meu uso do Max 5x, roda por 10 minutos, e muitas vezes o resultado que volta é pouco confiável. Em vez de realmente ler o código e raciocinar, ele passa superficialmente pelo problema, então sinto que não dá para confiar no Opus com adaptive thinking ligado
    • Pelo que entendi, se você deixa mais de 5 minutos entre prompts, parece que volta a pagar o custo de reinicialização do cache, mesmo sem compact ou clear. Mesmo usando compact, o custo não some totalmente; parece mais uma redução nos tokens de entrada. Mas também tenho curiosidade de saber se a compaction em si é gratuita
  • Se o resultado fosse bom, eu não me importaria de pagar mais, mas agora tenho a sensação de que a Anthropic está indo na direção de fazer você continuar gastando tokens por meio de recompensa intermitente. A linha Claude é claramente mais divertida que GPT ou Codex, tem mais personalidade, mais senso de design e estética. A sensação de fazer vibe-coding junto é divertida como um jogo. Só que o resultado quase sempre acaba nos mesmos problemas: apagar testes para fazer passar, aumentar código duplicado, errar na abstração, desligar type safety, ignorar requisitos rígidos. Esses problemas não foram resolvidos no 4.7 e, independentemente do que os benchmarks digam, continuam aparecendo no uso real. Nem sei se a empresa tem vontade de corrigir isso

    • Sinto quase a mesma coisa. No momento, essas ferramentas parecem especialmente úteis como substituto do Google, scaffolding chato, code review e busca avançada. Como já se firmaram no mercado de coding LLM, parece que agora começaram a monetizar para valer, e imagino que daqui para frente vão continuar saindo modelos com melhora mínima de desempenho e aumento de preço de mais de 40%
    • Acho que IA não deve ser simplesmente solta, e sim guiada. Se você tiver habilidade para conduzi-la direito, dá para extrair resultados de alta qualidade sem problemas
    • Entre as críticas acima, acho precipitado demais interpretar que a Anthropic adotou deliberadamente uma estratégia de extração de curto prazo para induzir consumo de tokens. Acho forçado dizer, de fora, que se sabe qual é a estratégia da empresa. Minha suposição é que, mais do que esse cenário, é muito mais provável que tenha havido oscilação de desempenho por problemas de infraestrutura ou capacidade, ou que o ajuste tenha sido feito mais na direção que os engenheiros queriam do que na que os clientes queriam, ou ainda que tenham deixado o modelo mais cauteloso por preocupações de segurança, como a mensagem de segurança relacionada ao Mythos. Esses fatores também não são mutuamente excludentes. Eu também não achei o Opus 4.7 tão impressionante assim, mas ainda não o usei por muito tempo nem rodei benchmarks por conta própria. Além disso, hoje em dia estou pedindo ao Claude coisas de Bayesian probabilistic modeling bem mais difíceis do que há algumas semanas, então talvez eu mesmo esteja levando o modelo mais perto do limite
  • Essa comparação parece ter medido o tamanho do prompt de duas maneiras usando a API de contagem de tokens, para isolar apenas a mudança no tokenizer. Um modelo mais inteligente também pode dar respostas mais curtas e, assim, reduzir os tokens de saída, então levando isso em conta não acho que dê para concluir por essa comparação, sozinha, que o 4.7 é realmente mais barato. Claro, no fim pode sair mais caro ou mais barato, mas acho que esse material por si só não ajuda muito a decidir para uso real

    • Como dado mais próximo de uso real, o benchmark do Artificial Analysis relatou que o 4.6 max usou cerca de 160 milhões de tokens e o 4.7 max cerca de 100 milhões. Na decomposição de custo, o gasto com entrada aumentou em 800 dólares, mas o de saída caiu 1400 dólares. Claro que o quanto há de compensação entre entrada e saída varia muito conforme o caso de uso, e parece que a diferença também deve ser menor quanto menor for o effort
    • Não entendi por que você diz que não é útil. O preço do token de entrada no 4.7 permaneceu o mesmo, mas parece claro que o mesmo prompt agora ficou cerca de 30% mais caro do ponto de vista de entrada
    • Sim. Eu também vi meu uso de tokens cair no 4.6 depois que passei a colocar toda sessão em max effort. Como os pensamentos intermediários se autocorrigiam no caminho, havia menos tentativa e erro, e o trabalho terminava em menos etapas. Já no 4.7, parecia acontecer mais de ele ficar rodando em círculos até em tarefas básicas. Em compensação, talvez tenha melhorado um pouco a capacidade de manter contexto longo por mais tempo
    • Na área de IA, por mais que eu veja, parece que nunca existem comparações úteis com as quais todo mundo consiga concordar
  • Por enquanto, pretendo continuar usando Opus 4.5 como principal no VSCode Copilot. No meu fluxo de trabalho, costumo dar instruções bem detalhadas ao agente, mas a maioria dos agentes insiste em fazer muito mais do que o necessário. Entre os que usei, o Opus 4.5 foi o melhor em entender o escopo que eu queria, mesmo com prompts incompletos, e tentar fazer só o necessário. O 4.6 demorava mais, pensava demais e aumentava o escopo das mudanças, e os GPTs de ponta tinham problema parecido. Outros modelos, como Sonnet, eram piores que o Opus em inferir minha intenção a partir de instruções menos precisas. Por isso parei de experimentar e segui só com o 4.5; era caro, mas eu sentia que valia a pena. Agora, porém, dizem que o 4.7 vai substituir tanto o 4.5 quanto o 4.6 no VSCode Copilot, ainda com um modifier de 7.5x por cima, e do meu ponto de vista isso parece um passo para ficar mais lento e mais caro, então acaba soando como regressão

    • Fico pensando se não seria melhor simplesmente usar Sonnet
    • Quando dizem que o 4.7 vai substituir tanto o 4.5 quanto o 4.6, eu fiquei me perguntando se isso realmente significa que o 4.5 vai desaparecer. Eu também tinha me fixado no 4.5, então, se for verdade, é bem uma pena
  • Cada vez mais me parece ingênua a suposição de que basta scaling de LLM para substituir por completo o trabalho de colarinho branco. Attention mechanism e Hopfield network parecem modelar apenas parte do cérebro humano, e essa enxurrada atual de reforços de memória agentic me parece justamente uma evidência de que o transformer SOTA atual, sozinho, não é suficiente. Mesmo restringindo ao domínio do texto, sinto que os limites já aparecem, embora eu possa só estar repetindo argumentos à la Yann LeCun

    • Talvez você realmente esteja repetindo esse argumento. Acho que essa lógica de small subset, de que transformer só se parece com uma pequena parte do cérebro humano, convence pouco tanto do ponto de vista da neurobiologia quanto olhando o desempenho real dos LLMs. Transformers são uma arquitetura muito geral e expressiva, usada não só em LLM, mas também em vídeo, áudio, SLAM, VLA e uma ampla variedade de áreas. O fato de não replicarem o cérebro humano em uma cópia 1:1 não significa que não possam chegar a uma inteligência funcionalmente equivalente. O cérebro humano é só uma das formas de implementação produzidas pela evolução. E a afirmação do LeCun de que LLM não consegue certas coisas continua sendo contrariada empiricamente. Mesmo em benchmarks como ARC-AGI-3, desenhados para desfavorecer LLMs, ainda não vi uma família de IA que se mostre melhor do que LLM
    • Acho que só com scaling estamos chegando perto do teto. Ainda assim, a eficiência pode melhorar, e as ferramentas e harness ao redor devem continuar evoluindo
    • Mesmo limitando à escrita de texto, ainda fica a dúvida. Por que ainda não conseguem escrever direito um romance inteiro? Mesmo baixando a barra e pensando só em uma novela, a sensação é que ainda não chega ao nível de obras como Death in Venice, Candide, The Metamorphosis, Breakfast at Tiffany's. Esses livros todos deviam estar no corpus de treino; então fico me perguntando se isso é só uma questão de ninguém ainda ter gasto algumas centenas de milhares de dólares em tokens para tentar
  • Ontem tentei usar o Opus 4.7 para organizar boas práticas de um site de página única e, com uns 4 prompts, já tinha estourado o limite diário. Depois de mais umas 7 interações, passei também do limite semanal. O HTML/CSS/JS inteiro tinha menos de 300 linhas de código, então fiquei bem chocado vendo a cota de uso se esgotar tão rápido

    • Eu ainda não usei Claude justamente porque achava que algo assim poderia acontecer. Num plano enterprise, só a fatura aumentaria, e também não me parece tão fácil para um VP anunciar uma migração imediata para toda a empresa. Se os assinantes individuais começarem a sair primeiro, o uso dos data centers pode cair e a rentabilidade pode até aumentar
    • Fico curioso sobre qual reasoning effort você configurou. Pelo que sei, o Max gasta muito mais tokens e não é recomendado para a maioria dos casos de uso. O novo padrão xhigh também consome mais do que o padrão antigo, medium
    • Fico curioso sobre qual plano era. Se for Pro, até consigo ver isso acontecendo, mas no plano Max eu acharia um pouco surpreendente
    • Fico curioso se você está usando assinatura Claude. Pelo que eu sei, o Claude por assinatura não funciona assim
  • Pelo título, parece que o correto seria 4.6 to 4.7, e não 4.7 para 4.6

    • Concordo plenamente
    • Mesmo para quem lê da esquerda para a direita, Opus 4.6 to 4.7 parece muito mais natural
  • Segundo a explicação do Artificial Analysis, o Opus 4.7, com Adaptive Reasoning e Max Effort, custou cerca de 4.406 dólares para rodar o Intelligence Index, o que foi cerca de 11% mais barato do que os aproximadamente 4.970 dólares do 4.6. A pontuação foi 4 pontos maior, e dizem que essa diferença se deve à redução no uso de tokens de saída, mesmo considerando o novo tokenizer. No entanto, o desconto de cached input ainda não foi refletido nesse cálculo, e eles disseram que vão incluí-lo em breve no cálculo de custo

  • Minha impressão é que a qualidade da conversa melhorou mais do que eu esperava. Está mais autocrítico, examina propostas com mais senso crítico e, em geral, as escolhas padrão parecem melhores. Talvez a diferença fique menos marcante porque eu não usei tantos harnesses quanto outras pessoas aqui, mas imagino que o valor possa ser até maior para usuários menos preparados. Mesmo fazendo só tarefas básicas, como revisar o fluxo de reviews recente ou acompanhar discussões de produto, o 4.6 era útil, mas podia facilmente virar uma foot-gun, enquanto o 4.7 parece mais propenso a agir como um membro sênior da equipe