Resultados da medição do custo de tokenização do Claude 4.7
(claudecodecamp.com)- O Claude 4.7 gera em média 1,3~1,45x mais tokens do que a versão anterior, resultando em aumento de 20~30% no custo por sessão dentro da mesma estrutura de preços
- O aumento de tokens é mais evidente em conteúdo em inglês e código, enquanto em conteúdo CJK (chinês, japonês e coreano) quase não há mudança
- Devido à tokenização mais granular, a aderência a instruções (Instruction Following) melhora cerca de 5 pp, com redução especialmente de erros de formatação
- Como aumenta o número de tokens do prefixo em cache e do histórico da conversa, o custo de cache e a velocidade de consumo do rate limit também sobem
- Como resultado, o Claude 4.7 é avaliado como uma estrutura em que se aceita um custo extra de tokens em troca de mais precisão e execução mais detalhada de instruções
Resultados da medição do tokenizador do Claude 4.7
- Foi informado que o Claude Opus 4.7 da Anthropic usa 1,0~1,35x mais tokens do que a versão anterior, 4.6, mas nas medições reais foi confirmado um nível de 1,45~1,47x
- Com o mesmo preço e as mesmas cotas, o aumento no número de tokens causa efeitos como maior velocidade de consumo da janela máxima, aumento do custo do prefixo em cache e atingimento antecipado do rate limit
- O experimento foi composto por duas partes: medição de custo e medição de aderência a instruções
Método de medição de custo
- Foi usado o endpoint
POST /v1/messages/count_tokensda API da Anthropic para inserir o mesmo conteúdo nos modelos 4.6 e 4.7 e comparar apenas a diferença do tokenizador - Foram usados dois conjuntos de amostras
- 7 amostras reais de uso enviadas por usuários reais do Claude Code
- 12 amostras artificiais com inglês, código, dados estruturados, CJK, emoji, símbolos matemáticos etc.
-
Resultados com conteúdo real do Claude Code
- Média ponderada de 1,325x nas 7 amostras reais (8.254 → 10.937 tokens)
- Principais exemplos
- Arquivo CLAUDE.md: 1,445x
- Prompt do usuário: 1,373x
- Post de blog: 1,368x
- Diff de código: 1,212x
-
Resultados por tipo de conteúdo (12 amostras artificiais)
- Média de conteúdo em inglês e código: 1,345x
- Média de conteúdo CJK (chinês, japonês e coreano): 1,01x
- Exemplos detalhados
- Documentação técnica: 1,47x
- Shell script: 1,39x
- Código TypeScript: 1,36x
- Prosa em inglês: 1,20x
- JSON: 1,13x
- Prosa em japonês e chinês: 1,01x
Padrões de mudança do tokenizador
- Conteúdo CJK, emojis e símbolos ficam em 1,005~1,07x, ou seja, quase sem mudança
- Vocabulário não latino aparentemente não sofreu grandes alterações
- Conteúdo em inglês e código aumenta 1,20~1,47x, com código sendo mais afetado do que prosa
- Strings repetidas em código (palavras-chave, imports, identificadores etc.) são subdivididas e separadas em mais tokens
- A proporção de caracteres por token no inglês cai de 4,33→3,60, e no TypeScript de 3,66→2,69
- O mesmo texto passa a ser representado dividido em unidades menores
Por que usa mais tokens
- A Anthropic enfatiza que, no 4.7, há uma “tendência a seguir instruções de forma mais literal”
- Unidades de token menores reforçam a atenção no nível da palavra (attention) e contribuem para melhorar execução precisa de instruções, tarefas no nível de caracteres e precisão em chamadas de ferramentas
- Parceiros como Notion, Warp e Factory relataram redução de erros na execução de ferramentas
- No entanto, além da tokenização, os pesos do modelo e o post-training também foram alterados, então não é possível isolar a causa
Teste de aderência a instruções
- Foi usado o benchmark IFEval (2023, Google): entre 541 prompts como “responda com exatamente N palavras” e “escreva sem vírgulas”, foram testadas 20 amostras
- Resultados
- Modo estrito por prompt: 4.6 → 85%, 4.7 → 90% (+5 pp)
- Modo estrito por instrução: 86% → 90% (+4 pp)
- No modo flexível, não houve diferença
- A melhora ocorreu principalmente pela redução de erros relacionados à formatação
- Uma diferença clara foi confirmada apenas em um único prompt (
change_case:english_capital) - Como o tamanho da amostra é pequeno (+5 pp é estatisticamente incerto), a melhora é avaliada como pequena, mas consistente
Cálculo de custo por sessão no Claude Code
- Suposição de uma sessão com 80 interações de ida e volta
- Prefixo estático: 6K tokens (CLAUDE.md 2K + definição de ferramentas 4K)
- Histórico da conversa: cresce 2K por turno, chegando a 160K em 80 turnos
- Entrada/saída: 500 / 1.500 tokens por turno
- Taxa de acerto de cache: 95%
-
Custo por sessão no 4.6
- | Item | Cálculo | Custo |
- | --- | --- | --- |
- | Primeira gravação no cache | 8K × $6.25/MTok | $0.05 |
- | Leitura de cache (79 vezes) | 79 × 86K × $0.50/MTok | $3.40 |
- | Nova entrada | 79 × 500 × $5/MTok | $0.20 |
- | Saída | 80 × 1.500 × $25/MTok | $3.00 |
- | Total | | cerca de $6.65 |
-
Custo por sessão no 4.7
- CLAUDE.md: 1,445x → 2K → 2,9K
- Definição de ferramentas: 1,12x → 4K → 4,5K
- Histórico da conversa: 1,325x → 160K → 212K
- Entrada do usuário: 1,325x → 500 → 660
- Prefixo médio em cache: cerca de 115K tokens
- | Item | Cálculo | Custo |
- | --- | --- | --- |
- | Primeira gravação no cache | 10K × $6.25/MTok | $0.06 |
- | Leitura de cache (79 vezes) | 79 × 115K × $0.50/MTok | $4.54 |
- | Nova entrada | 79 × 660 × $5/MTok | $0.26 |
- | Saída | 80 × 1.500–1.950 × $25/MTok | $3.00–$3.90 |
- | Total | | cerca de $7.86–$8.76 |
- Aumento de 20~30% no custo por sessão, sem mudança no preço por token
- Usuários do plano Max passam a ter o encerramento da sessão mais cedo dentro da mesma janela de tempo
Impacto no prompt cache
- Devido à separação de cache por modelo, ao migrar para o 4.7 o cache existente do 4.6 é invalidado
- A primeira sessão começa sem cache aplicado, com um custo maior de prefixo
- O próprio volume de cache aumenta 1,3~1,45x, então tanto leitura quanto gravação sobem na mesma proporção
- Mesmo com o mesmo log de conversa, o número de tokens muda, criando uma descontinuidade em relação aos valores cobrados e aos números de monitoramento do passado
Contra-argumentos e interpretação
-
“A maior parte da entrada é leitura de cache, então o impacto é mínimo”
- Quando a taxa de acerto de cache é alta, o impacto no custo é pequeno, mas em casos de expiração de TTL, invalidação de cache e troca de modelo, o custo aumenta na proporção total
-
“1,35x não é um teto, é uma faixa”
- Os valores medidos na prática se concentram perto do limite superior (1,325x), e alguns arquivos passam disso
- No uso real, é mais seguro planejar com base no limite superior
Conclusão
- Em tarefas centradas em inglês e código, o uso de tokens aumenta 1,3~1,45x
- A aderência a instruções melhora cerca de +5 pp, um ganho pequeno, mas prático
- O custo por sessão sobe 20~30%, com o mesmo preço por token
- Como resultado, isso é avaliado como uma estrutura em que se paga um custo adicional para obter maior precisão e execução mais detalhada de instruções
2 comentários
Não é o Claude 4.7, e sim o Opus 4.7.
Comentários do Hacker News
Partindo do pressuposto de que a curva de desempenho/custo dos LLMs existe em forma logarítmica, não está claro se o Opus 4.5+ é um novo ponto nessa curva ou se apenas está numa faixa em que o custo dispara para obter desempenho mais alto
O fato de a Anthropic elevar os preços rapidamente pode ser um sinal de que isso reflete uma alta acentuada nos custos operacionais
Acho que a prática de mostrar o eixo x em escala logarítmica de custo nos gráficos de avaliação de modelos acaba escondendo essa realidade
A era de simplesmente usar sempre o melhor modelo acabou. É preciso ter opções para escolher diferentes pontos dependendo do trabalho
Para tarefas complexas, acho aceitável usar um modelo maior e gastar 5 horas de tokens de uma vez
Mas muita gente não vai gostar dessa complexidade de escolha, e imagino que veremos mais tentativas de roteamento inteligente daqui para frente
Assim como existe um público que quer opções ultracaras como as da Apple, um mercado de LLMs de altíssimo desempenho também pode existir
Muita gente foca no custo dos modelos de IA, mas na prática o tempo gasto por humanos para orientar e revisar agentes de codificação com IA é muito mais caro
$200/mês é caro como hobby, mas do ponto de vista de negócios é um valor irrisório
O importante é o quão bem o modelo faz o trabalho, e nessa faixa de preço o ponto central é a eficiência em relação ao tempo
Acho que o valor econômico da assinatura do Claude fica na faixa de 10 mil a 40 mil euros.
Eu compraria mesmo que o preço subisse 100 vezes. Só começaria a avaliar alternativas se chegasse a 20 mil euros por mês, mas hoje o ganho de produtividade é esmagador
Acho que a melhora na qualidade dos modelos vai acabar chegando a uma faixa de retorno decrescente
Como em telas 8K vs 16K, a maioria dos usuários nem percebe a diferença
Se houver um aumento de custo de 20~30%, precisa haver um aumento de valor perceptível equivalente
Já as consultas conversacionais gerais estão praticamente saturadas, então fica difícil diferenciar os modelos
O multiplicador de modelo do GitHub Copilot aumentou de 3 para 7,5
Parece uma tentativa da Microsoft de reduzir prejuízos
Veja a documentação oficial
O título do artigo induz ao erro. O número de tokens aumentou, mas o custo por tarefa pode ser diferente
Parte-se da suposição de que o Opus 4.7 não usa o mesmo caminho de raciocínio do Opus 4.6
É preciso esperar os resultados do Intelligence Index da Artificial Analysis
Ontem, quando usei o Opus, ele estava incrivelmente bom, mas hoje continua errando até tarefas simples
Precisei apontar o mesmo problema pela terceira vez, a sessão caiu várias vezes e houve compaction em excesso
No fim, decidi voltar para o Sonnet
Ultimamente penso com frequência: “será que realmente precisamos de modelos mais poderosos?”
O setor está obcecado com a corrida por desempenho e deixando de lado eficiência e sustentabilidade
Acho que, daqui para frente, será importante seguir na direção de otimizar modelos de 0,5B~1B parâmetros para tarefas específicas
Como no texto CPUs Aren’t Dead, o modelo Gemma 4 E2B do Google roda até em celular e supera o GPT-3.5-turbo
Segundo o Intelligence Index da Artificial Analysis, os modelos 2B mais recentes têm desempenho comparável ao de modelos 175B de 3 a 4 anos atrás
O Gemma 4 E4B chega até a superar o GPT-4o
Nesse ritmo, logo poderemos rodar modelos de primeira linha até em notebooks
Esse tipo de divulgação de “o novo modelo é insano” no fim é marketing de FOMO
Os vendedores de doces de Kolkata, na Índia, como não conseguiam aumentar os preços apesar da alta nos insumos, reagiram reduzindo o tamanho do produto
É assim que a adaptação psicológica das pessoas funciona
A Anthropic introduziu um novo modo xhigh no 4.7
Como o modo max usa muitos tokens e pode provocar raciocínio excessivo, o recomendado na maioria dos casos é o xhigh
Veja a documentação oficial
Em código real, o Opus 4.7 mostrou cerca de 30% de aumento de tokens
O mais importante é: “que nova capacidade o 4.7 oferece em relação ao 4.6?”
Ainda é cedo para julgar, e se houver valor nisso, dá para aceitar o aumento de custo
Se o escopo da tarefa for reduzido, fica mais fácil revisar e gerenciar, e dá para corrigir rápido com diffs pequenos
Se o consumo de tokens do Copilot aumentar 7 vezes, acho que isso vai até quebrar o fluxo de trabalho