1 pontos por GN⁺ 17 일 전 | 1 comentários | Compartilhar no WhatsApp
  • No início de março de 2026, foi observado que o TTL de cache do Claude Code mudou de 1 hora para 5 minutos, mostrando uma alteração causada por configuração no lado do servidor mesmo com o mesmo padrão de uso
  • Com a redução do TTL, o custo de recriação de cache aumentou de 20% a 32% e, em sessões longas, o consumo de cota disparou
  • A análise mostra cerca de 17% de custo adicional por modelo, e alguns usuários começaram a atingir o limite de cota de 5 horas
  • A Anthropic explicou que a mudança de 6 de março foi intencional e que o objetivo era reduzir o custo total aplicando TTLs diferentes por solicitação
  • A comunidade criticou o aumento de custos, a falta de transparência e a ausência de aviso prévio, e pediu garantia de escolha do usuário nas configurações de TTL

Relato de problemas de custo e cota causados pela mudança no TTL de cache

  • Foi analisado que, no início de março de 2026, o valor padrão do TTL de cache do Claude Code da Anthropic mudou de 1 hora para 5 minutos
    • Análise baseada em 119.866 chamadas de API entre 11 de janeiro e 11 de abril de 2026
    • Entre 6 e 8 de março, o TTL de 5 minutos voltou a aparecer, enquanto o TTL de 1 hora desapareceu gradualmente
    • Como isso ocorreu com a mesma versão do cliente e o mesmo padrão de uso, concluiu-se que foi uma mudança de configuração no servidor
  • Com a mudança do TTL, foi observado aumento de 20% a 32% no custo de criação de cache e forte alta no consumo de cota entre usuários assinantes
    • Com TTL de 5 minutos, se a sessão parar por mais de 5 minutos, o cache expira e todo o contexto precisa ser enviado novamente
    • Recriar cache pode ser até 12,5 vezes mais caro do que ler cache, e o custo se acumula especialmente em sessões longas de programação
    • Em fevereiro, quando o TTL de 1 hora era mantido, a taxa de desperdício era de 1,1%, mas depois de março saltou para 15% a 53%
  • Resultado da análise de custos

    • Modelo claude-sonnet-4-6: custo total de $5,561.17 → $4,612.09 com TTL de 1 hora (cerca de 17,1% de gasto excedente)
    • Modelo claude-opus-4-6: custo total de $9,268.97 → $7,687.17 com TTL de 1 hora (cerca de 17,1% de gasto excedente)
    • O mesmo percentual de desperdício apareceu de forma consistente entre os modelos
  • Impacto na cota

    • Tokens de criação de cache contam integralmente para a cota, enquanto leituras de cache são calculadas com peso menor
    • Depois de março, usuários assinantes começaram, pela primeira vez, a atingir o limite de cota de 5 horas

Resposta oficial da Anthropic

  • Reconhecimento da mudança: a alteração de 6 de março foi intencional e realizada como parte de um trabalho de otimização de cache
    • O sistema foi projetado para aplicar TTLs diferentes dependendo do tipo de solicitação, e não existe um valor padrão global único
    • Aplicar TTL de 1 hora a todas as solicitações poderia, ao contrário, aumentar os custos
    • TTL de 5 minutos é mais eficiente para solicitações que não serão reutilizadas e, considerando o conjunto total de solicitações, reduz o custo total
  • Correção de bug: na v2.1.90, foi corrigido um bug do cliente que fixava o TTL em 5 minutos até o encerramento da sessão quando toda a cota de assinatura era consumida
  • Resposta aos pedidos
    1. Houve mudança, e ela foi aplicada intencionalmente em 6 de março
    2. O TTL é escolhido dinamicamente por solicitação, sem valor padrão global
    3. Não há plano de restaurar o TTL de 1 hora como padrão nem de oferecer uma opção de configuração
    4. A forma como tokens de leitura de cache contam para a cota será detalhada depois em um issue separado

Reação da comunidade

  • Muitos usuários manifestaram insatisfação com o aumento de custos e a piora na usabilidade

    • Houve muitas opiniões de que “um TTL de 5 minutos praticamente obriga a reiniciar a sessão a cada 5 minutos, reduzindo a produtividade”
    • Também foi apontado que “usuários assinantes já pagaram antecipadamente, mas a mudança no TTL reduziu o tempo de uso efetivo”
    • Seguiram-se pedidos de que “mudanças que afetam o custo para o usuário precisam ser anunciadas previamente”
  • Alguns usuários disseram que isso foi uma mudança positiva para usuários da API, enquanto outros responderam que “na API, o TTL de 5 minutos já era o padrão desde o início”

  • As críticas se concentraram na falta de transparência

    • “Mudanças de infraestrutura relacionadas a custo precisam de aviso prévio, não de explicações posteriores”
    • “Esse tipo de ‘mudança silenciosa’ prejudica a confiança e obriga os usuários a rastrear por conta própria a causa dos problemas”
  • Segundo o histórico da documentação, o cache padrão tem TTL de 5 minutos, e o TTL de 1 hora é oferecido como uma opção com custo adicional

    • A mesma descrição já aparecia na documentação oficial em janeiro de 2026

Conclusão

  • Em 6 de março de 2026, a Anthropic mudou a política de TTL de cache do Claude Code de 1 hora para 5 minutos
  • A empresa descreveu isso como um ajuste intencional para otimização de custos, mas os usuários apontaram aumento de custos, esgotamento de cota e falta de transparência como problemas
  • A comunidade passou a exigir garantia de escolha do usuário nas configurações de TTL e aviso prévio sobre mudanças de política

1 comentários

 
GN⁺ 17 일 전
Opiniões no Hacker News
  • Nos últimos meses, dá para sentir claramente que o clima dos engenheiros em relação ao Claude/Codex mudou
    Principalmente com o aumento das mudanças não divulgadas, cresce a ansiedade de quem já não tem certeza se o produto pelo qual pagou inicialmente continua sendo o mesmo
    Hoje em dia, quando se fala da Anthropic, parece que quase sempre é em um contexto negativo

    • Foi marcante ver a Anthropic tomar várias medidas recentes, como banir usuários do OpenClaw, proibir harnesses de terceiros, reduzir a intensidade de raciocínio e encurtar o comprimento das respostas
      Houve até casos em que o uso aumentou de repente 21 vezes, e no geral isso parece uma tentativa de redução de custos
      Ainda gosto do Claude, mas está cada vez mais difícil recomendá-lo para amigos
    • Na nossa empresa (mais de 400 engenheiros), há um mês cancelaram todas as assinaturas de IDE (Visual Studio, JetBrains etc.) e migraram para o Claude Code
      O EVP mostrou dois demos que fez no fim de semana e mandou todo mundo seguir o mesmo caminho, mas em apenas uma semana saiu um aviso suspendendo o uso por consumo excessivo de tokens
      Desde então, parece que o modelo piora a cada semana, então fico imaginando como o EVP deve estar se sentindo agora
    • Até poucos meses atrás, o Claude Code era excelente, mas hoje tem tantos erros e mal-entendidos que está quase inutilizável
      Quando mudei para o Codex, achei bem mais estável
      Minha suspeita é que, logo após o lançamento, eles mantêm o produto forte, mas com o tempo vão reduzindo o desempenho para aumentar a expectativa pelo próximo lançamento
    • Depois de assinar, senti claramente uma queda na capacidade de raciocínio
      Troquei várias configurações e até mexi no prompt de sistema com scripts, mas ele ainda cai com frequência em loops lógicos
      Não dá para saber se é bug, enfraquecimento intencional ou só impressão minha
    • Eu não senti grandes problemas
      Talvez porque eu faça o Claude refatorar passo a passo
      Uma vez, quando perguntei sobre uma configuração do Grafana, o Claude respondeu que “só tinha chutado”, e no fim gastou 35k tokens para me falar de um simples checkbox
      Meus colegas estão sentindo a queda de desempenho e migrando para o Cursor, mas eu ainda continuo usando porque gosto do fluxo da conversa do Claude
  • Hoje em dia, o Claude Code e o serviço de assinatura estão muito menos úteis do que antes
    Vários problemas estão se acumulando: bugs, velocidade de consumo da cota, queda no desempenho do modelo, problemas de invalidação de cache e até suspeitas de quantização
    Antes eu conseguia implementar um protótipo de uma vez, mas agora isso está quase impossível, mesmo com especificações detalhadas
    O ChatGPT também está ficando mais fraco de forma parecida
    Parece que nem Anthropic nem OpenAI são uma solução fundamental

    • Um amigo está satisfeito usando o recurso multimodelo do Cursor
      Há alguns meses muita gente dizia que o Cursor tinha morrido, mas agora ele está sendo usado bem
    • Com a explosão da demanda, parece que a maioria dos usuários está recebendo modelos fortemente quantizados sem qualquer aviso
    • A maioria desses serviços de IA segue um modelo subsidiado por prejuízo, então é natural que, com o tempo, a qualidade caia e o preço suba
  • O limite de cota por sessão é tão rígido que a UX entra num ciclo ruim
    Quando o cache de uma hora expira, recomeçar custa mais caro, e isso faz com que a próxima sessão também se esgote mais rápido
    Em meados de março, até no plano Pro as sessões acabavam em menos de uma hora, num nível praticamente inutilizável

  • A forma como o título foi escrito causou confusão
    Em vez de “M”, deveria ter sido usado “min”, e acabou parecendo que o TTL tinha aumentado de 1 hora para 5 meses

    • É uma pena que a mudança do título dê a impressão de que tentaram esconder a dimensão do problema
    • Eu também fiquei confuso no começo, pensando: “o que é M?”
  • Ultimamente o Claude também erra bastante até em perguntas de car wash
    Ele tende a exagerar a dificuldade da resolução, ou tenta pegar um atalho fácil dizendo que “vai levar tempo demais”

    • Nas últimas semanas, dá a sensação de que o prompt de sistema está limitando o esforço do modelo
      Nos logs em JSON, frases como “isso é complexo demais, então vamos resolver com hardcode” aparecem repetidamente
      Parece que a Anthropic está tentando equilibrar escassez de recursos computacionais e aumento repentino de novos usuários
    • Também ouvi um caso em que o Claude recusou uma tarefa dizendo que “levaria semanas”, mas depois de muita insistência concluiu tudo em 30 segundos
    • Isso parece a sequência clássica de “vender no prejuízo → pânico → destruição do produto”
    • A velocidade de consumo de tokens também aumentou, então antes eu conseguia tocar 3 a 5 projetos em paralelo, e agora mal consigo terminar um
    • Se você usar um prompt forte como “não ligue para os riscos e simplesmente faça!”, o modelo volta a agir de forma mais proativa
      É um método de motivação de LLM meio agressivo, mas eficaz
  • A Anthropic deixou uma resposta oficial em uma issue do GitHub

    • Lendo a thread, tive a sensação de que era como se um Claude estivesse conversando com outros Claudes
    • Foi interessante ver que eles reconheceram a mudança de 6 de março. Palmas para quem descobriu isso por análise de prompts
    • A explicação da empresa fazia sentido, mas termos como “cache read likelihood” soaram pretensiosos, e parece que a comunidade não recebeu isso muito bem
  • Eu mesmo criei uma ferramenta de chat baseada em API e acoplei cache
    Com cache de 5 minutos, ele expira com frequência demais para acompanhar o ritmo da conversa, mas em ferramentas com prefixo comum a economia é grande
    Se o cache for bem aproveitado, a redução de custos é considerável

  • Como a política de expiração do cache não combina com sessões de 5 horas, estou pensando em manter o cache com um script que consome o mínimo de tokens a cada 4 minutos e 50 segundos quando o uso da sessão chega a cerca de 97%

  • Ouvi no podcast do Dwarkesh que a Anthropic é cuidadosa ao expandir recursos computacionais
    Quando a demanda dispara, tentativas de reduzir o volume de computação se tornam inevitáveis
    É um problema que não se resolve no curto prazo só colocando mais dinheiro

    • Esse tipo de fenômeno costuma aparecer muito na fase de pré-treinamento de novos modelos. Também aconteceu na época da linha 3.x
  • Independentemente das mudanças estranhas na Anthropic/Claude, ao olhar os dados da tabela deste post, fico confuso porque os custos e o número de chamadas em fevereiro e abril são quase idênticos
    Não sei o que posso estar deixando passar