Calculadora de custo de tokens do Opus 4.6 e Opus 4.7
(tokens.billchambers.me)- Uma ferramenta de cálculo para analisar o problema em que, devido ao novo tokenizer do Opus 4.7, o mesmo prompt é contabilizado com mais tokens
- A mesma entrada é mapeada para 1,0 a 1,35x mais tokens dependendo do tipo de conteúdo, aumentando o custo por solicitação mesmo sem mudar as palavras
- Na contagem real, o Opus 4.7 mostrou aumento médio de +37,4% tanto em tokens por solicitação quanto em custo por solicitação em comparação com o Opus 4.6
- Com base nas 50 comparações mais recentes, o aumento varia de +19,0% até +86,2%, com muitos casos distribuídos nas faixas de +30% e +40%
- Nesta página, é possível colar conversas, prompts de sistema e textos para ver uma comparação detalhada da diferença de contagem de tokens entre Opus 4.7 e 4.6 e do custo com base nos preços atuais
Contexto de criação desta ferramenta
- No anúncio de lançamento do Opus 4.7, ele foi apresentado como um upgrade direto em relação ao Opus 4.6, mas há duas mudanças que afetam o uso de tokens
- Com o tokenizer atualizado, a mesma entrada passa a ser mapeada para 1,0 a 1,35x mais tokens, dependendo do tipo de conteúdo
- Em níveis de effort mais altos, especialmente nos turnos finais de ambientes agentic, o modelo raciocina mais, aumentando o número de tokens de saída
- A confiabilidade em problemas difíceis melhora, mas isso impacta diretamente a estrutura de custos baseada em tokens
Impacto para o usuário
- Mesmo com o mesmo texto de prompt, o Opus 4.7 contabiliza mais tokens, elevando o custo por solicitação mesmo sem alterar a redação
- O Tokenomics permite colar qualquer conversa, prompt de sistema ou texto para verificar diretamente a diferença de tokens entre Opus 4.7 e 4.6
- Também calcula a diferença concreta de custo com base nos preços atuais
Página de médias da comunidade
- A página
/leaderboardagrega dados anônimos de comparação enviados pelos usuários da ferramenta - É possível ver, com base em uso real, a média de aumento de tokens por diferentes tipos de prompt
Pontos a observar
- Texto do prompt não é armazenado: a entrada é processada no navegador e enviada ao servidor, que a repassa para a API de contagem de tokens da Anthropic; o texto do prompt não é salvo no banco de dados, apenas métricas anônimas de contagem de tokens são armazenadas
- Não é um produto oficial da Anthropic: foi criado por Bill Chambers e não possui relação de afiliação, endosso ou patrocínio com a Anthropic
- Open source: o código-fonte completo está disponível no GitHub (
bllchmbrs/tokensmatter), e contribuições e feedback são bem-vindos
Médias da comunidade
- Com base em comparações de solicitações reais enviadas anonimamente, foram agregadas as diferenças de tokens e custo por solicitação do Opus 4.7 em relação ao Opus 4.6
- Total agregado com base em 425 envios
- A lista de comparações recentes mostra as 50 mais recentes, ordenadas da mais nova para a mais antiga
- Variação média de tokens por solicitação: +37,4%
- Variação média de custo por solicitação: +37,4%
- Tamanho médio da solicitação: 369 / 495
- O texto original não fornece explicação adicional para esses dois valores
Exemplos recentes de comparações anônimas
- Na tabela das 50 comparações mais recentes, a maioria dos casos registra o mesmo percentual de aumento em tokens por solicitação do Opus 4.7 e em custo
- Exemplo 1: envio
6b5d3ebf, solicitação 23 → 31, custo $0.000345 → $0.000465, variação +34,8% - Exemplo 2: envio
1363973a, solicitação 99 → 130, custo $0.001485 → $0.001950, variação +31,3% - Exemplo 3: envio
17a9645e, solicitação 16 → 20, custo $0.000240 → $0.000300, variação +25,0%
- Exemplo 1: envio
- O aumento também aparece em solicitações pequenas
- envio
10c3149a, solicitação 8 → 14, custo $0.000120 → $0.000210, variação +75,0% - envio
8f58e536, solicitação 8 → 13, custo $0.000120 → $0.000195, variação +62,5% - envio
942f5d38, solicitação 12 → 19, custo $0.000180 → $0.000285, variação +58,3%
- envio
- Casos semelhantes se repetem também em solicitações de porte médio
- envio
67f5f437, solicitação 188 → 275, custo $0.002820 → $0.004125, variação +46,3% - envio
04249c86, solicitação 176 → 256, custo $0.002640 → $0.003840, variação +45,5% - envio
af25da70, solicitação 269 → 501, custo $0.004035 → $0.007515, variação +86,2%
- envio
- Um padrão semelhante também é observado em solicitações grandes
- envio
c5d75d71, solicitação 2,263 → 3,282, custo $0.0339 → $0.0492, variação +45,0% - envio
4db385b5, solicitação 1,592 → 2,205, custo $0.0239 → $0.0331, variação +38,5% - envio
68375705, solicitação 4,449 → 6,434, custo $0.0667 → $0.0965, variação +44,6%
- envio
- Há também vários envios com os mesmos números repetidos
- Casos de solicitação 175 → 221, custo $0.002625 → $0.003315, variação +26,3% se repetem em vários IDs de envio
- Casos de solicitação 996 → 1,392, custo $0.0149 → $0.0209, variação +39,8% se repetem em vários IDs de envio
- Casos de solicitação 43 → 61, custo $0.000645 → $0.000915, variação +41,9% se repetem em vários IDs de envio
1 comentários
Comentários no Hacker News
Acho que, para comparar de forma justa, é preciso olhar o custo total. O 4.7 usa bem menos tokens de saída que o 4.6, e o custo de raciocínio também parece ter caído bastante. Olhando a comparação do Artificial Analysis, o 4.7 sai um pouco mais barato que o 4.6, e o 4.5 fica quase pela metade. Em especial, chama atenção que o custo de reasoning praticamente caiu pela metade na transição do 4.6 para o 4.7. Ainda assim, em cargas reais como Claude Code, tanto a entrada quanto o raciocínio parecem ter peso grande, então ainda não tenho noção de como o aumento no preço da entrada e a queda no preço do raciocínio vão se compensar. Tarefas com muito raciocínio podem ficar mais baratas, mas tarefas com pouco raciocínio talvez acabem ficando mais caras. Para esse tipo de trabalho, eu provavelmente usaria Codex
Pela minha percepção, quase não senti melhora de desempenho do 4.6 para o 4.7, mas a velocidade de consumo do limite ficou muito clara. Ontem gastei o limite de 5 horas em 2 horas, e quando liguei o batched mode para refatorar, ele consumiu 30% do limite em 5 minutos, então cancelei. Depois mudei para o modo serial e consumiu menos, mas ainda assim ficou evidente que gastava muito mais rápido do que o 4.6. Agora parece que cada conversa consome cerca de 5% do limite de 5 horas, enquanto antes era algo em torno de 1~2%. Eu estou no plano Max 5x, então ainda tenho bastante folga no limite semanal e dá para aguentar, mas queria pelo menos que explicassem isso com mais transparência ou melhorassem esse ponto. A configuração de effort também continua opaca demais, então ajuda menos do que deveria na prática
Se o resultado fosse bom, eu não me importaria de pagar mais, mas agora tenho a sensação de que a Anthropic está indo na direção de fazer você continuar gastando tokens por meio de recompensa intermitente. A linha Claude é claramente mais divertida que GPT ou Codex, tem mais personalidade, mais senso de design e estética. A sensação de fazer vibe-coding junto é divertida como um jogo. Só que o resultado quase sempre acaba nos mesmos problemas: apagar testes para fazer passar, aumentar código duplicado, errar na abstração, desligar type safety, ignorar requisitos rígidos. Esses problemas não foram resolvidos no 4.7 e, independentemente do que os benchmarks digam, continuam aparecendo no uso real. Nem sei se a empresa tem vontade de corrigir isso
Essa comparação parece ter medido o tamanho do prompt de duas maneiras usando a API de contagem de tokens, para isolar apenas a mudança no tokenizer. Um modelo mais inteligente também pode dar respostas mais curtas e, assim, reduzir os tokens de saída, então levando isso em conta não acho que dê para concluir por essa comparação, sozinha, que o 4.7 é realmente mais barato. Claro, no fim pode sair mais caro ou mais barato, mas acho que esse material por si só não ajuda muito a decidir para uso real
Por enquanto, pretendo continuar usando Opus 4.5 como principal no VSCode Copilot. No meu fluxo de trabalho, costumo dar instruções bem detalhadas ao agente, mas a maioria dos agentes insiste em fazer muito mais do que o necessário. Entre os que usei, o Opus 4.5 foi o melhor em entender o escopo que eu queria, mesmo com prompts incompletos, e tentar fazer só o necessário. O 4.6 demorava mais, pensava demais e aumentava o escopo das mudanças, e os GPTs de ponta tinham problema parecido. Outros modelos, como Sonnet, eram piores que o Opus em inferir minha intenção a partir de instruções menos precisas. Por isso parei de experimentar e segui só com o 4.5; era caro, mas eu sentia que valia a pena. Agora, porém, dizem que o 4.7 vai substituir tanto o 4.5 quanto o 4.6 no VSCode Copilot, ainda com um modifier de 7.5x por cima, e do meu ponto de vista isso parece um passo para ficar mais lento e mais caro, então acaba soando como regressão
Cada vez mais me parece ingênua a suposição de que basta scaling de LLM para substituir por completo o trabalho de colarinho branco. Attention mechanism e Hopfield network parecem modelar apenas parte do cérebro humano, e essa enxurrada atual de reforços de memória agentic me parece justamente uma evidência de que o transformer SOTA atual, sozinho, não é suficiente. Mesmo restringindo ao domínio do texto, sinto que os limites já aparecem, embora eu possa só estar repetindo argumentos à la Yann LeCun
Ontem tentei usar o Opus 4.7 para organizar boas práticas de um site de página única e, com uns 4 prompts, já tinha estourado o limite diário. Depois de mais umas 7 interações, passei também do limite semanal. O HTML/CSS/JS inteiro tinha menos de 300 linhas de código, então fiquei bem chocado vendo a cota de uso se esgotar tão rápido
Pelo título, parece que o correto seria 4.6 to 4.7, e não 4.7 para 4.6
Segundo a explicação do Artificial Analysis, o Opus 4.7, com Adaptive Reasoning e Max Effort, custou cerca de 4.406 dólares para rodar o Intelligence Index, o que foi cerca de 11% mais barato do que os aproximadamente 4.970 dólares do 4.6. A pontuação foi 4 pontos maior, e dizem que essa diferença se deve à redução no uso de tokens de saída, mesmo considerando o novo tokenizer. No entanto, o desconto de cached input ainda não foi refletido nesse cálculo, e eles disseram que vão incluí-lo em breve no cálculo de custo
Minha impressão é que a qualidade da conversa melhorou mais do que eu esperava. Está mais autocrítico, examina propostas com mais senso crítico e, em geral, as escolhas padrão parecem melhores. Talvez a diferença fique menos marcante porque eu não usei tantos harnesses quanto outras pessoas aqui, mas imagino que o valor possa ser até maior para usuários menos preparados. Mesmo fazendo só tarefas básicas, como revisar o fluxo de reviews recente ou acompanhar discussões de produto, o 4.6 era útil, mas podia facilmente virar uma foot-gun, enquanto o 4.7 parece mais propenso a agir como um membro sênior da equipe