Problema no plano Claude Code Pro Max 5x: cota se esgota em 1,5 hora mesmo com uso moderado
(github.com/anthropics)- No plano Pro Max 5x (contexto de 1M), mesmo apenas com um nível moderado de perguntas e respostas e trabalho de desenvolvimento, ocorre estouro do limite de tokens em 1,5 hora
- Aponta-se como causa um erro em que os tokens de
cache_readsão contabilizados pela proporção total (1.0x), eliminando o efeito do cache e provocando consumo acelerado - Chamadas automáticas de sessões em segundo plano, compactação automática (auto-compact) e entrada de contexto grande elevam em conjunto a velocidade de consumo
- A comunidade analisa como causas centrais o encurtamento do TTL do cache (1 hora→5 minutos) e o fenômeno de invalidação de cache (cache busting)
- A Anthropic está trabalhando em redução do contexto padrão (400k), melhorias de UX e otimização de chamadas inativas, além de coletar feedback dos usuários
Problema de esgotamento rápido da cota no plano Pro Max 5x
- Foi relatado no plano Pro Max 5x (claude-opus-4-6, contexto de 1M) um fenômeno em que a cota se esgota em 1,5 hora mesmo com perguntas e respostas em nível intermediário e desenvolvimento leve
- Em 5 horas anteriores de desenvolvimento intenso, o consumo foi normal, mas após a redefinição ocorreu consumo acelerado
- O ambiente era Claude Code CLI no WSL2, em uma única sessão (com 2 compactações automáticas)
- O principal suspeito é um erro em que os tokens
cache_readsão calculados pela proporção total (1.0x)- Em condições normais,
cache_readdeveria ser calculado na proporção de 1/10; caso contrário, o efeito do cache desaparece - O uso de tokens foi analisado por meio do objeto
usagenos logs da sessão (~/.claude/projects/.../*.jsonl)
- Em condições normais,
- Chamadas automáticas de sessões em segundo plano, processamento caro da compactação automática (auto-compact) e entradas grandes na janela de contexto de 1M atuam em conjunto para acelerar o consumo
- Segundo a análise da comunidade, alguns usuários apontam como causa principal o encurtamento do TTL do cache (1 hora→5 minutos) e a invalidação de cache (cache busting)
- A equipe da Anthropic está trabalhando em redução do contexto padrão (400k), melhorias de UX e otimização de chamadas inativas, e pediu mais dados por meio do feedback dos usuários
Consumo de tokens medido
-
Janela 1 (15:00–20:00, 5 horas, desenvolvimento intenso)
- 2.715 chamadas de API, Cache read 1.044M, Cache create 16.8M, saída de 1.15M tokens
- Entrada efetiva (com proporção de 1/10 aplicada): 121.8M tokens
- Foi realizado servidor Express + app iOS, pipeline graphify e coordenação multiagente baseada em SPEC
-
Janela 2 (20:00–21:30, 1,5 hora, uso moderado)
- Sessão principal (vibehq): 222 chamadas de API, Cache read 23.2M, Cache create 1.4M, saída 91k
- Sessões em segundo plano (incluindo token-analysis e career-ops): total de 691 chamadas, Cache read 103.9M, saída 387k
- Total de 13.1M tokens efetivos (com proporção de 1/10 aplicada) → em condições normais, não haveria estouro da cota
- Na prática, foram 105.7M tokens (com cálculo 1.0x) → cerca de 70.5M por hora, compatível com o esgotamento da cota
Resumo dos principais problemas
-
1. Erro no cálculo do limite de cobrança dos tokens de cache read
- Esperado:
cache_readcalculado na proporção de 1/10 - Real: calculado na proporção total, anulando o efeito do cache
- Em um ambiente com contexto de 1M, são enviados de 100~960k tokens por chamada, o que pode esgotar a cota em minutos após mais de 200 chamadas
- Esperado:
-
2. Consumo da cota compartilhada por sessões em segundo plano
- Sessões inativas (como token-analysis e career-ops) também continuam consumindo a cota compartilhada por chamadas automáticas de compactação e pós-processamento
-
3. Chamadas caras da compactação automática (auto-compact)
- Antes da compactação, todo o contexto (~966k tokens) é enviado como
cache_creation, fazendo com que a chamada mais cara ocorra automaticamente
- Antes da compactação, todo o contexto (~966k tokens) é enviado como
-
4. Efeitos colaterais da janela de contexto de 1M
- O contexto grande aumenta drasticamente o número de tokens por chamada, acelerando a velocidade de consumo da cota
Etapas de reprodução
- Executar o Claude Code com o modelo Opus no plano Pro Max 5x
- Incluir cerca de 30 arquivos de regras em
~/.claude/rules/(sobrecarga de 19k tokens) - Realizar tarefas centradas em ferramentas, como leitura de arquivos, build e testes
- Confirmar o aumento do contexto com o comando
/context - Verificar a queda brusca da cota após 200~300 chamadas
- Manter de 2 a 3 sessões em outro terminal
- Confirmar que a cota volta a se esgotar em pouco tempo mesmo após a redefinição
Comparação entre comportamento esperado e comportamento real
-
Esperado:
cache_readcalculado na proporção de 1/10- Sessões inativas com consumo mínimo
- A compactação automática não provoca consumo excessivo
- Com uso moderado, a sessão pode durar de 2 a 3 horas
-
Real:
- Esgotamento em 1,5 hora
- Sessões em segundo plano respondem por 78% do consumo
- Supõe-se que
cache_readesteja sendo calculado na proporção total devido ao envio de 105.7M tokens no total
Sugestões de melhoria
- Esclarecer o método de cálculo de
cache_read— explicitar na documentação a proporção real usada para calcular o limite de cobrança - Limite com base em tokens efetivos — ajustar para que
cache_readseja calculado na proporção de 1/10 - Detecção de sessão ociosa — impedir chamadas automáticas de sessões inativas ou exibir aviso
- Visualização em tempo real do consumo de tokens — mostrar o uso de
cache_read,cache_create, entrada e saída - Previsão de custo com base no contexto — exibir o custo estimado em tokens antes da tarefa
Análise e discussão da comunidade
-
cnighswonger
- Coletou dados de 1.500 chamadas ao longo de 24 horas com o interceptador
claude-code-cache-fix - Ao validar três hipóteses (
cache_read0.0x, 0.1x, 1.0x), apenas o modelo 0.0x apresentou resultado consistente na janela de 5 horas (CV 34.4%) - Conclusão:
cache_readpraticamente não afeta a cota na prática, e o cache está funcionando normalmente - Ainda assim, é necessária validação adicional, pois os dados são de uma única conta
- Coletou dados de 1.500 chamadas ao longo de 24 horas com o interceptador
-
henu-wang
- Após uma regressão que reduziu o TTL do cache de 1 hora para 5 minutos, sempre que a sessão era pausada ocorria
cache_create, gerando custo 12,5 vezes maior - Quanto mais longo o contexto, mais o custo aumenta de forma não linear
- Como solução temporária, sugeriu manter sessões curtas, usar ativamente o comando
/compacte pré-carregar o contexto essencial emCLAUDE.md
- Após uma regressão que reduziu o TTL do cache de 1 hora para 5 minutos, sempre que a sessão era pausada ocorria
-
bcherny (equipe Anthropic)
- Reconheceu que, ao usar a janela de contexto de 1M, falhas no cache de prompt têm alto custo
- Está testando melhorias de UX (induzir
/clearao retomar sessões longas) e uma medida para reduzir o contexto padrão para 400k - Também identificou casos em que tarefas inativas consomem tokens em excesso ao usar multiagentes e plugins, e está avançando em limpeza automática e melhorias no agendamento
-
wadabum
- Apontou um bug em que novas sessões não acertam o cache de forma alguma (#47098, #47107)
- O prompt de sistema baseado em
git statuse os blocosCLAUDE.mdmudam a cada sessão, causando invalidação de cache (cache busting) - cnighswonger respondeu que o interceptador faz alguma estabilização da ordenação, mas o problema de
git-statusexige correção separada
Resumo das sugestões da comunidade
- RockyMM: quando a sessão atingir o limite, induzir retomada após resumo automático e reduzir o TTL para 10 minutos
- mikebutash: relatou que no plano Pro só era possível fazer 2 prompts a cada 5 horas e confirmou melhora de 3 a 4 vezes ao fazer rollback para a versão v2.1.81 e instalar o cache-fix
- wutlu: mitigou o problema reinicializando a sessão por tarefa
- dprkh: ajudou na identificação da causa ao compartilhar habilidades do modo de depuração (Skill.md)
Conclusão
- O problema de esgotamento rápido da cota no plano Pro Max 5x foi confirmado como resultado do efeito combinado de comportamento do cache, regressão de TTL, expansão do contexto e chamadas em segundo plano
- A comunidade avalia que, mais do que um erro no cálculo de
cache_read, as causas centrais são a invalidação de cache e o encurtamento do TTL - A equipe da Anthropic está trabalhando em reduzir o contexto padrão, melhorar a UX do cache e otimizar chamadas inativas, e pediu mais dados por meio do feedback dos usuários (
/feedback)
2 comentários
Em termos de qualidade, não há nem o que substitua isso
Tomara que, com um patch simples, dê para usar mais.
Comentários do Hacker News
Aqui é o Boris, da equipe do Claude Code. Após investigar os problemas relatados recentemente, concluímos que há duas causas principais
CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 claudeSe você estiver enfrentando esse problema, envie feedback com o comando
/feedback, pois isso ajuda no debugging/clearnão é uma solução. Se você limpa o cache, no fim precisa reconstruí-lo de novo, então o custo é o mesmo. Levar o usuário via UX a usar contextos menores é uma piora na qualidade do serviço. Se o problema é custo, então precisam corrigir o preço ou a arquiteturaUltimamente o Claude estava visivelmente mais lento e ineficiente. Mesmo indicando os arquivos, ele entrava num loop de exploração por mais de 5 minutos e logo atingia o limite da sessão. Usando só três vezes por dia, 25% do limite semanal ia embora. Então migrei para o plano Codex de $100, que é muito melhor em precisão e generosidade. Só acho o jeito de falar do Codex irritante, então adicionei instruções separadas no Agents.md. O senso de UI do antigo Claude Code era melhor, mas para debug de backend e resolução de problemas complexos o Codex leva vantagem. No momento, eu recomendaria comparar o Codex com o plano de $20 do Cursor
Ao passar pelos issues, entendi por que a Anthropic fecha tickets tão rápido. A maioria parece ser ruído gerado por IA. A solução que encontrei foi a seguinte
O que mais me incomoda é a Anthropic ter forçado o uso do modelo de 1M
/model opusou/model sonnetDá a sensação de que o fim da era dos subsídios está chegando. Na comunidade do Google Gemini também estão explodindo reclamações recentes sobre redução de cota (link do issue). No fim, eu também migrei para a combinação Kiro IDE + Codex CLI e estou satisfeito
É preocupante que o issue que apontou a causa raiz do problema tenha sido fechado como “Not planned”
Fiz rollback para a versão 2.1.34 e a maior parte dos problemas de cota e cache foi resolvida.
Adicionei
"effortLevel": "high","CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": 1etc. em~/.claude/settings.json, e removi as outras versões.O adaptive thinking ainda está incompleto, mas talvez ajude quando melhorar no futuro. Mesmo assim, estou pensando em migrar para o Codex
CLAUDE_CODE_MAX_OUTPUT_TOKENS=64000,DISABLE_AUTOUPDATER=1etc. no~/.bashrcTambém houve problemas parecidos nos modelos inferiores. Acho que uma relação justa começa com medição transparente. Vou cancelar a assinatura deste mês
Este ano experimentei fazer a declaração de impostos com agentes de IA. Usei Opus 4.6, Codex 5.4 e Antigravity 3.1, cada um no plano de $20.
O Codex concluiu tudo perfeitamente em 12 minutos, o Antigravity deixou uma página passar mas foi corrigido rapidamente. Já o Claude Code parou por exceder o limite de uso, e mesmo após tentar de novo ainda houve erros. Ficou abaixo das expectativas
Depois do anúncio de atualização no Reddit, o Claude mudou a ponto de ficar inutilizável para programação do dia a dia. Os créditos da conta Pro acabaram em uma hora, então voltei para Gemini ou ChatGPT
No fim das contas, a estrutura de cobrança por tokens da Anthropic parece ter sido desenhada de forma desfavorável para usuários comuns. Na prática, ao usar, dá para sentir imediatamente quanto dinheiro eles queriam tirar disso