Anthropic encurta o TTL de cache de 1 hora para 5 minutos em 6 de março de 2026
(github.com/anthropics)- No início de março de 2026, foi observado que o TTL de cache do Claude Code mudou de 1 hora para 5 minutos, mostrando uma alteração causada por configuração no lado do servidor mesmo com o mesmo padrão de uso
- Com a redução do TTL, o custo de recriação de cache aumentou de 20% a 32% e, em sessões longas, o consumo de cota disparou
- A análise mostra cerca de 17% de custo adicional por modelo, e alguns usuários começaram a atingir o limite de cota de 5 horas
- A Anthropic explicou que a mudança de 6 de março foi intencional e que o objetivo era reduzir o custo total aplicando TTLs diferentes por solicitação
- A comunidade criticou o aumento de custos, a falta de transparência e a ausência de aviso prévio, e pediu garantia de escolha do usuário nas configurações de TTL
Relato de problemas de custo e cota causados pela mudança no TTL de cache
- Foi analisado que, no início de março de 2026, o valor padrão do TTL de cache do Claude Code da Anthropic mudou de 1 hora para 5 minutos
- Análise baseada em 119.866 chamadas de API entre 11 de janeiro e 11 de abril de 2026
- Entre 6 e 8 de março, o TTL de 5 minutos voltou a aparecer, enquanto o TTL de 1 hora desapareceu gradualmente
- Como isso ocorreu com a mesma versão do cliente e o mesmo padrão de uso, concluiu-se que foi uma mudança de configuração no servidor
- Com a mudança do TTL, foi observado aumento de 20% a 32% no custo de criação de cache e forte alta no consumo de cota entre usuários assinantes
- Com TTL de 5 minutos, se a sessão parar por mais de 5 minutos, o cache expira e todo o contexto precisa ser enviado novamente
- Recriar cache pode ser até 12,5 vezes mais caro do que ler cache, e o custo se acumula especialmente em sessões longas de programação
- Em fevereiro, quando o TTL de 1 hora era mantido, a taxa de desperdício era de 1,1%, mas depois de março saltou para 15% a 53%
-
Resultado da análise de custos
- Modelo
claude-sonnet-4-6: custo total de $5,561.17 → $4,612.09 com TTL de 1 hora (cerca de 17,1% de gasto excedente) - Modelo
claude-opus-4-6: custo total de $9,268.97 → $7,687.17 com TTL de 1 hora (cerca de 17,1% de gasto excedente) - O mesmo percentual de desperdício apareceu de forma consistente entre os modelos
- Modelo
-
Impacto na cota
- Tokens de criação de cache contam integralmente para a cota, enquanto leituras de cache são calculadas com peso menor
- Depois de março, usuários assinantes começaram, pela primeira vez, a atingir o limite de cota de 5 horas
Resposta oficial da Anthropic
- Reconhecimento da mudança: a alteração de 6 de março foi intencional e realizada como parte de um trabalho de otimização de cache
- O sistema foi projetado para aplicar TTLs diferentes dependendo do tipo de solicitação, e não existe um valor padrão global único
- Aplicar TTL de 1 hora a todas as solicitações poderia, ao contrário, aumentar os custos
- TTL de 5 minutos é mais eficiente para solicitações que não serão reutilizadas e, considerando o conjunto total de solicitações, reduz o custo total
- Correção de bug: na v2.1.90, foi corrigido um bug do cliente que fixava o TTL em 5 minutos até o encerramento da sessão quando toda a cota de assinatura era consumida
- Resposta aos pedidos
- Houve mudança, e ela foi aplicada intencionalmente em 6 de março
- O TTL é escolhido dinamicamente por solicitação, sem valor padrão global
- Não há plano de restaurar o TTL de 1 hora como padrão nem de oferecer uma opção de configuração
- A forma como tokens de leitura de cache contam para a cota será detalhada depois em um issue separado
Reação da comunidade
-
Muitos usuários manifestaram insatisfação com o aumento de custos e a piora na usabilidade
- Houve muitas opiniões de que “um TTL de 5 minutos praticamente obriga a reiniciar a sessão a cada 5 minutos, reduzindo a produtividade”
- Também foi apontado que “usuários assinantes já pagaram antecipadamente, mas a mudança no TTL reduziu o tempo de uso efetivo”
- Seguiram-se pedidos de que “mudanças que afetam o custo para o usuário precisam ser anunciadas previamente”
-
Alguns usuários disseram que isso foi uma mudança positiva para usuários da API, enquanto outros responderam que “na API, o TTL de 5 minutos já era o padrão desde o início”
-
As críticas se concentraram na falta de transparência
- “Mudanças de infraestrutura relacionadas a custo precisam de aviso prévio, não de explicações posteriores”
- “Esse tipo de ‘mudança silenciosa’ prejudica a confiança e obriga os usuários a rastrear por conta própria a causa dos problemas”
-
Segundo o histórico da documentação, o cache padrão tem TTL de 5 minutos, e o TTL de 1 hora é oferecido como uma opção com custo adicional
- A mesma descrição já aparecia na documentação oficial em janeiro de 2026
Conclusão
- Em 6 de março de 2026, a Anthropic mudou a política de TTL de cache do Claude Code de 1 hora para 5 minutos
- A empresa descreveu isso como um ajuste intencional para otimização de custos, mas os usuários apontaram aumento de custos, esgotamento de cota e falta de transparência como problemas
- A comunidade passou a exigir garantia de escolha do usuário nas configurações de TTL e aviso prévio sobre mudanças de política
1 comentários
Opiniões no Hacker News
Nos últimos meses, dá para sentir claramente que o clima dos engenheiros em relação ao Claude/Codex mudou
Principalmente com o aumento das mudanças não divulgadas, cresce a ansiedade de quem já não tem certeza se o produto pelo qual pagou inicialmente continua sendo o mesmo
Hoje em dia, quando se fala da Anthropic, parece que quase sempre é em um contexto negativo
Houve até casos em que o uso aumentou de repente 21 vezes, e no geral isso parece uma tentativa de redução de custos
Ainda gosto do Claude, mas está cada vez mais difícil recomendá-lo para amigos
O EVP mostrou dois demos que fez no fim de semana e mandou todo mundo seguir o mesmo caminho, mas em apenas uma semana saiu um aviso suspendendo o uso por consumo excessivo de tokens
Desde então, parece que o modelo piora a cada semana, então fico imaginando como o EVP deve estar se sentindo agora
Quando mudei para o Codex, achei bem mais estável
Minha suspeita é que, logo após o lançamento, eles mantêm o produto forte, mas com o tempo vão reduzindo o desempenho para aumentar a expectativa pelo próximo lançamento
Troquei várias configurações e até mexi no prompt de sistema com scripts, mas ele ainda cai com frequência em loops lógicos
Não dá para saber se é bug, enfraquecimento intencional ou só impressão minha
Talvez porque eu faça o Claude refatorar passo a passo
Uma vez, quando perguntei sobre uma configuração do Grafana, o Claude respondeu que “só tinha chutado”, e no fim gastou 35k tokens para me falar de um simples checkbox
Meus colegas estão sentindo a queda de desempenho e migrando para o Cursor, mas eu ainda continuo usando porque gosto do fluxo da conversa do Claude
Hoje em dia, o Claude Code e o serviço de assinatura estão muito menos úteis do que antes
Vários problemas estão se acumulando: bugs, velocidade de consumo da cota, queda no desempenho do modelo, problemas de invalidação de cache e até suspeitas de quantização
Antes eu conseguia implementar um protótipo de uma vez, mas agora isso está quase impossível, mesmo com especificações detalhadas
O ChatGPT também está ficando mais fraco de forma parecida
Parece que nem Anthropic nem OpenAI são uma solução fundamental
Há alguns meses muita gente dizia que o Cursor tinha morrido, mas agora ele está sendo usado bem
O limite de cota por sessão é tão rígido que a UX entra num ciclo ruim
Quando o cache de uma hora expira, recomeçar custa mais caro, e isso faz com que a próxima sessão também se esgote mais rápido
Em meados de março, até no plano Pro as sessões acabavam em menos de uma hora, num nível praticamente inutilizável
A forma como o título foi escrito causou confusão
Em vez de “M”, deveria ter sido usado “min”, e acabou parecendo que o TTL tinha aumentado de 1 hora para 5 meses
Ultimamente o Claude também erra bastante até em perguntas de car wash
Ele tende a exagerar a dificuldade da resolução, ou tenta pegar um atalho fácil dizendo que “vai levar tempo demais”
Nos logs em JSON, frases como “isso é complexo demais, então vamos resolver com hardcode” aparecem repetidamente
Parece que a Anthropic está tentando equilibrar escassez de recursos computacionais e aumento repentino de novos usuários
É um método de motivação de LLM meio agressivo, mas eficaz
A Anthropic deixou uma resposta oficial em uma issue do GitHub
Eu mesmo criei uma ferramenta de chat baseada em API e acoplei cache
Com cache de 5 minutos, ele expira com frequência demais para acompanhar o ritmo da conversa, mas em ferramentas com prefixo comum a economia é grande
Se o cache for bem aproveitado, a redução de custos é considerável
Como a política de expiração do cache não combina com sessões de 5 horas, estou pensando em manter o cache com um script que consome o mínimo de tokens a cada 4 minutos e 50 segundos quando o uso da sessão chega a cerca de 97%
Ouvi no podcast do Dwarkesh que a Anthropic é cuidadosa ao expandir recursos computacionais
Quando a demanda dispara, tentativas de reduzir o volume de computação se tornam inevitáveis
É um problema que não se resolve no curto prazo só colocando mais dinheiro
Independentemente das mudanças estranhas na Anthropic/Claude, ao olhar os dados da tabela deste post, fico confuso porque os custos e o número de chamadas em fevereiro e abril são quase idênticos
Não sei o que posso estar deixando passar