Anthropic encurta o TTL de cache de 1 hora para 5 minutos em 6 de março de 2026

(github.com/anthropics)

1 pontos por GN⁺ 17 일 전 | 1 comentários | Compartilhar no WhatsApp

No início de março de 2026, foi observado que o TTL de cache do Claude Code mudou de 1 hora para 5 minutos, mostrando uma alteração causada por configuração no lado do servidor mesmo com o mesmo padrão de uso
Com a redução do TTL, o custo de recriação de cache aumentou de 20% a 32% e, em sessões longas, o consumo de cota disparou
A análise mostra cerca de 17% de custo adicional por modelo, e alguns usuários começaram a atingir o limite de cota de 5 horas
A Anthropic explicou que a mudança de 6 de março foi intencional e que o objetivo era reduzir o custo total aplicando TTLs diferentes por solicitação
A comunidade criticou o aumento de custos, a falta de transparência e a ausência de aviso prévio, e pediu garantia de escolha do usuário nas configurações de TTL

Relato de problemas de custo e cota causados pela mudança no TTL de cache

Foi analisado que, no início de março de 2026, o valor padrão do TTL de cache do Claude Code da Anthropic mudou de 1 hora para 5 minutos
- Análise baseada em 119.866 chamadas de API entre 11 de janeiro e 11 de abril de 2026
- Entre 6 e 8 de março, o TTL de 5 minutos voltou a aparecer, enquanto o TTL de 1 hora desapareceu gradualmente
- Como isso ocorreu com a mesma versão do cliente e o mesmo padrão de uso, concluiu-se que foi uma mudança de configuração no servidor
Com a mudança do TTL, foi observado aumento de 20% a 32% no custo de criação de cache e forte alta no consumo de cota entre usuários assinantes
- Com TTL de 5 minutos, se a sessão parar por mais de 5 minutos, o cache expira e todo o contexto precisa ser enviado novamente
- Recriar cache pode ser até 12,5 vezes mais caro do que ler cache, e o custo se acumula especialmente em sessões longas de programação
- Em fevereiro, quando o TTL de 1 hora era mantido, a taxa de desperdício era de 1,1%, mas depois de março saltou para 15% a 53%
Resultado da análise de custos
- Modelo claude-sonnet-4-6: custo total de $5,561.17 → $4,612.09 com TTL de 1 hora (cerca de 17,1% de gasto excedente)
- Modelo claude-opus-4-6: custo total de $9,268.97 → $7,687.17 com TTL de 1 hora (cerca de 17,1% de gasto excedente)
- O mesmo percentual de desperdício apareceu de forma consistente entre os modelos
Impacto na cota
- Tokens de criação de cache contam integralmente para a cota, enquanto leituras de cache são calculadas com peso menor
- Depois de março, usuários assinantes começaram, pela primeira vez, a atingir o limite de cota de 5 horas

Resposta oficial da Anthropic

Reconhecimento da mudança: a alteração de 6 de março foi intencional e realizada como parte de um trabalho de otimização de cache
- O sistema foi projetado para aplicar TTLs diferentes dependendo do tipo de solicitação, e não existe um valor padrão global único
- Aplicar TTL de 1 hora a todas as solicitações poderia, ao contrário, aumentar os custos
- TTL de 5 minutos é mais eficiente para solicitações que não serão reutilizadas e, considerando o conjunto total de solicitações, reduz o custo total
Correção de bug: na v2.1.90, foi corrigido um bug do cliente que fixava o TTL em 5 minutos até o encerramento da sessão quando toda a cota de assinatura era consumida
Resposta aos pedidos
1. Houve mudança, e ela foi aplicada intencionalmente em 6 de março
2. O TTL é escolhido dinamicamente por solicitação, sem valor padrão global
3. Não há plano de restaurar o TTL de 1 hora como padrão nem de oferecer uma opção de configuração
4. A forma como tokens de leitura de cache contam para a cota será detalhada depois em um issue separado

Reação da comunidade

Muitos usuários manifestaram insatisfação com o aumento de custos e a piora na usabilidade
- Houve muitas opiniões de que “um TTL de 5 minutos praticamente obriga a reiniciar a sessão a cada 5 minutos, reduzindo a produtividade”
- Também foi apontado que “usuários assinantes já pagaram antecipadamente, mas a mudança no TTL reduziu o tempo de uso efetivo”
- Seguiram-se pedidos de que “mudanças que afetam o custo para o usuário precisam ser anunciadas previamente”
Alguns usuários disseram que isso foi uma mudança positiva para usuários da API, enquanto outros responderam que “na API, o TTL de 5 minutos já era o padrão desde o início”
As críticas se concentraram na falta de transparência
- “Mudanças de infraestrutura relacionadas a custo precisam de aviso prévio, não de explicações posteriores”
- “Esse tipo de ‘mudança silenciosa’ prejudica a confiança e obriga os usuários a rastrear por conta própria a causa dos problemas”
Segundo o histórico da documentação, o cache padrão tem TTL de 5 minutos, e o TTL de 1 hora é oferecido como uma opção com custo adicional
- A mesma descrição já aparecia na documentação oficial em janeiro de 2026

Conclusão

Em 6 de março de 2026, a Anthropic mudou a política de TTL de cache do Claude Code de 1 hora para 5 minutos
A empresa descreveu isso como um ajuste intencional para otimização de custos, mas os usuários apontaram aumento de custos, esgotamento de cota e falta de transparência como problemas
A comunidade passou a exigir garantia de escolha do usuário nas configurações de TTL e aviso prévio sobre mudanças de política

1 comentários

GN⁺ 17 일 전

Opiniões no Hacker News

Nos últimos meses, dá para sentir claramente que o clima dos engenheiros em relação ao Claude/Codex mudou
Principalmente com o aumento das mudanças não divulgadas, cresce a ansiedade de quem já não tem certeza se o produto pelo qual pagou inicialmente continua sendo o mesmo
Hoje em dia, quando se fala da Anthropic, parece que quase sempre é em um contexto negativo
- Foi marcante ver a Anthropic tomar várias medidas recentes, como banir usuários do OpenClaw, proibir harnesses de terceiros, reduzir a intensidade de raciocínio e encurtar o comprimento das respostas
  Houve até casos em que o uso aumentou de repente 21 vezes, e no geral isso parece uma tentativa de redução de custos
  Ainda gosto do Claude, mas está cada vez mais difícil recomendá-lo para amigos
- Na nossa empresa (mais de 400 engenheiros), há um mês cancelaram todas as assinaturas de IDE (Visual Studio, JetBrains etc.) e migraram para o Claude Code
  O EVP mostrou dois demos que fez no fim de semana e mandou todo mundo seguir o mesmo caminho, mas em apenas uma semana saiu um aviso suspendendo o uso por consumo excessivo de tokens
  Desde então, parece que o modelo piora a cada semana, então fico imaginando como o EVP deve estar se sentindo agora
- Até poucos meses atrás, o Claude Code era excelente, mas hoje tem tantos erros e mal-entendidos que está quase inutilizável
  Quando mudei para o Codex, achei bem mais estável
  Minha suspeita é que, logo após o lançamento, eles mantêm o produto forte, mas com o tempo vão reduzindo o desempenho para aumentar a expectativa pelo próximo lançamento
- Depois de assinar, senti claramente uma queda na capacidade de raciocínio
  Troquei várias configurações e até mexi no prompt de sistema com scripts, mas ele ainda cai com frequência em loops lógicos
  Não dá para saber se é bug, enfraquecimento intencional ou só impressão minha
- Eu não senti grandes problemas
  Talvez porque eu faça o Claude refatorar passo a passo
  Uma vez, quando perguntei sobre uma configuração do Grafana, o Claude respondeu que “só tinha chutado”, e no fim gastou 35k tokens para me falar de um simples checkbox
  Meus colegas estão sentindo a queda de desempenho e migrando para o Cursor, mas eu ainda continuo usando porque gosto do fluxo da conversa do Claude
Hoje em dia, o Claude Code e o serviço de assinatura estão muito menos úteis do que antes
Vários problemas estão se acumulando: bugs, velocidade de consumo da cota, queda no desempenho do modelo, problemas de invalidação de cache e até suspeitas de quantização
Antes eu conseguia implementar um protótipo de uma vez, mas agora isso está quase impossível, mesmo com especificações detalhadas
O ChatGPT também está ficando mais fraco de forma parecida
Parece que nem Anthropic nem OpenAI são uma solução fundamental
- Um amigo está satisfeito usando o recurso multimodelo do Cursor
  Há alguns meses muita gente dizia que o Cursor tinha morrido, mas agora ele está sendo usado bem
- Com a explosão da demanda, parece que a maioria dos usuários está recebendo modelos fortemente quantizados sem qualquer aviso
- A maioria desses serviços de IA segue um modelo subsidiado por prejuízo, então é natural que, com o tempo, a qualidade caia e o preço suba
O limite de cota por sessão é tão rígido que a UX entra num ciclo ruim
Quando o cache de uma hora expira, recomeçar custa mais caro, e isso faz com que a próxima sessão também se esgote mais rápido
Em meados de março, até no plano Pro as sessões acabavam em menos de uma hora, num nível praticamente inutilizável
A forma como o título foi escrito causou confusão
Em vez de “M”, deveria ter sido usado “min”, e acabou parecendo que o TTL tinha aumentado de 1 hora para 5 meses
- É uma pena que a mudança do título dê a impressão de que tentaram esconder a dimensão do problema
- Eu também fiquei confuso no começo, pensando: “o que é M?”
Ultimamente o Claude também erra bastante até em perguntas de car wash
Ele tende a exagerar a dificuldade da resolução, ou tenta pegar um atalho fácil dizendo que “vai levar tempo demais”
- Nas últimas semanas, dá a sensação de que o prompt de sistema está limitando o esforço do modelo
  Nos logs em JSON, frases como “isso é complexo demais, então vamos resolver com hardcode” aparecem repetidamente
  Parece que a Anthropic está tentando equilibrar escassez de recursos computacionais e aumento repentino de novos usuários
- Também ouvi um caso em que o Claude recusou uma tarefa dizendo que “levaria semanas”, mas depois de muita insistência concluiu tudo em 30 segundos
- Isso parece a sequência clássica de “vender no prejuízo → pânico → destruição do produto”
- A velocidade de consumo de tokens também aumentou, então antes eu conseguia tocar 3 a 5 projetos em paralelo, e agora mal consigo terminar um
- Se você usar um prompt forte como “não ligue para os riscos e simplesmente faça!”, o modelo volta a agir de forma mais proativa
  É um método de motivação de LLM meio agressivo, mas eficaz
A Anthropic deixou uma resposta oficial em uma issue do GitHub
- Lendo a thread, tive a sensação de que era como se um Claude estivesse conversando com outros Claudes
- Foi interessante ver que eles reconheceram a mudança de 6 de março. Palmas para quem descobriu isso por análise de prompts
- A explicação da empresa fazia sentido, mas termos como “cache read likelihood” soaram pretensiosos, e parece que a comunidade não recebeu isso muito bem
Eu mesmo criei uma ferramenta de chat baseada em API e acoplei cache
Com cache de 5 minutos, ele expira com frequência demais para acompanhar o ritmo da conversa, mas em ferramentas com prefixo comum a economia é grande
Se o cache for bem aproveitado, a redução de custos é considerável
Como a política de expiração do cache não combina com sessões de 5 horas, estou pensando em manter o cache com um script que consome o mínimo de tokens a cada 4 minutos e 50 segundos quando o uso da sessão chega a cerca de 97%
Ouvi no podcast do Dwarkesh que a Anthropic é cuidadosa ao expandir recursos computacionais
Quando a demanda dispara, tentativas de reduzir o volume de computação se tornam inevitáveis
É um problema que não se resolve no curto prazo só colocando mais dinheiro
- Esse tipo de fenômeno costuma aparecer muito na fase de pré-treinamento de novos modelos. Também aconteceu na época da linha 3.x
Independentemente das mudanças estranhas na Anthropic/Claude, ao olhar os dados da tabela deste post, fico confuso porque os custos e o número de chamadas em fevereiro e abril são quase idênticos
Não sei o que posso estar deixando passar

Anthropic encurta o TTL de cache de 1 hora para 5 minutos em 6 de março de 2026

Relato de problemas de custo e cota causados pela mudança no TTL de cache

Resultado da análise de custos

Impacto na cota

Resposta oficial da Anthropic

Reação da comunidade

Conclusão

Leituras relacionadas

1 comentários

Opiniões no Hacker News