Por que cancelei o Claude: problemas com tokens, queda de qualidade e suporte fraco
(nickyreinert.de)- Nas primeiras semanas, fiquei bastante satisfeito com a velocidade rápida, a cota de tokens que parecia justa e a boa qualidade dos resultados, mas há cerca de 3 semanas essa percepção mudou bastante
- Depois de ficar 10 horas sem usar e voltar, enviei apenas duas perguntas curtas ao Claude Haiku, e o uso disparou para 100%; o canal de suporte, após respostas automatizadas que não abordavam o ponto principal, acabou na prática sendo encerrado
- Recentemente, antes eu tocava vários projetos ao mesmo tempo, mas agora até em um único projeto a cota de tokens se esgota em duas horas; durante um refactor, acabei gastando cerca de metade da janela de 5 horas só para corrigir um atalho barato
- Depois de certo tempo, o cache da conversa desaparecia, e o custo de reler todo o codebase se repetia; somado à mudança do marco semanal e a alertas de limite mensal sem explicação, o sistema de limites deixou de parecer consistente
- Embora reconheça fortemente o ganho de produtividade e o potencial do produto, o acúmulo de suporte deficiente, queda de qualidade e confusão com as limitações de uso acabou levando ao cancelamento da conta da Anthropic
Satisfação inicial e a mudança posterior
- Nas primeiras semanas da assinatura do Claude Code, a velocidade era rápida, a cota de tokens parecia justa e a qualidade dos resultados era boa
- Também era possível ver o aviso dizendo que haviam aumentado a cota de tokens em horários menos congestionados
- Somado a uma postura contrária a algumas regras governamentais, isso também gerou simpatia pelo produto
- Há cerca de 3 semanas, essa satisfação inicial começou a desaparecer rapidamente
- Nas seções seguintes, os problemas de suporte, qualidade e limite de uso passam a se repetir
Problemas na qualidade do suporte
- Depois de descansar cerca de 10 horas e supor que os tokens tinham sido recarregados, comecei a trabalhar pela manhã, mas logo após enviar duas perguntas curtas ao Claude Haiku, sem relação com o repositório, o uso de tokens disparou para 100%
- As perguntas eram simples e pequenas
- A atualização esperada dos tokens e o aumento real no uso não batiam
- Entrei em contato com o bot de suporte por IA, mas ele só devolveu orientações básicas e nem entendeu corretamente o problema real
- Depois disso, pedi suporte humano
- Alguns dias depois, a resposta recebida também pareceu fora de sintonia com o problema real
- A resposta começava com a frase de que “o sistema detectou uma dúvida sobre limites de uso dos planos Pro ou Max”, mas na prática eu já estava usando o plano Pro e o ponto central da solicitação também não foi corretamente compreendido
- Em seguida, o corpo da mensagem trazia uma longa explicação em formato de documentação sobre limites diários e semanais
- Também não havia qualquer fluxo que resolvesse ou tratasse diretamente do problema relatado
- No final do e-mail, havia a mensagem de que respostas adicionais talvez não fossem monitoradas e que eu deveria visitar a página de ajuda; na prática, o canal de suporte foi encerrado
- Em outras palavras, depois de uma resposta automatizada que nem refletia o problema real, até o caminho de suporte acabou bloqueado
- A frustração com a qualidade do suporte começou a crescer de fato
Queda de qualidade
- Nos dias e semanas seguintes, a qualidade dos resultados já não foi satisfatória em comparação com a experiência inicial, e o tempo útil de trabalho também caiu bastante
- Antes, era possível tocar até três projetos ao mesmo tempo, mas agora até em um único projeto a cota de tokens acaba em duas horas
- A quantidade disponível e a produtividade percebida pioraram juntas
- Também é apontado que a avaliação de qualidade pode ser subjetiva e que o desempenho do agente é muito influenciado pelo usuário
- Ao mesmo tempo, a pessoa relata que também usa GitHub Copilot, OpenAI Codex, OMLX, Continue e Qwen3.5-9B, o que deixa evidente uma experiência comparativa entre ferramentas
- Não há a pretensão de reivindicar expertise absoluta, mas a queda percebida vem de alguém que já testou várias ferramentas
- Em um caso em que foi pedido ao Claude Opus para refatorar um projeto, o log de raciocínio do modelo mostrava a direção de adicionar um inicializador genérico em
ui-events.jspara injetar automaticamente a exibição de valores, em vez de ajustar diretamente todos os sliders no JSX- Essa abordagem era uma solução de contorno que inseria automaticamente a exibição de valor quando ela não existia em cada range input
- Esses logs passaram a parecer algo que precisava ser verificado com frequência, e não apenas ocasionalmente
- Essa abordagem foi avaliada não como boa prática, mas como um atalho barato; ao apontar isso diretamente, o Opus também reconheceu que era uma solução preguiçosa e mudou para adicionar os rótulos diretamente no JSX e conectá-los de forma explícita
- Só para corrigir essa direção inicial equivocada, foi gasto cerca de 50% da cota de tokens da janela de 5 horas
- A queda de qualidade deixou de ser apenas impressão e passou a significar desperdício real de custo
Confusão com cache e exibição de limites
- O problema do cache de conversa também surgiu de forma nova, e junto com isso são ligados o postmortem da Anthropic e a discussão no Hacker News
- O fato de a empresa estar tratando o problema publicamente é visto de forma positiva
- Ainda assim, o peso para a experiência do usuário permanece
- Depois de um certo tempo e ao voltar ao trabalho, o cache da conversa desaparecia e o modelo voltava a ler o codebase desde o começo
- Do ponto de vista de custo, isso pode até fazer sentido para a empresa, mas para o usuário significa pagar com tokens pelo carregamento inicial, ser forçado a pausar e depois pagar de novo pelo mesmo carregamento
- Especialmente quando se voltava após a limitação da janela de 5 horas de tokens, esse mesmo custo era pago repetidamente
- Também houve um caso em que a janela semanal mudou de repente da data atual para segunda-feira, e junto com a mudança o uso foi zerado
- O reset em si foi bem-vindo, mas não ficou claro por que essa alteração aconteceu
- Isso reforçou a impressão de que o sistema de limites não parecia consistente
- Enquanto acompanhava continuamente o uso de tokens durante o trabalho em um projeto, surgiu de repente um alerta dizendo que eu precisava me preocupar com um limite mensal de uso, mesmo sem ser usuário corporativo
- Naquele momento, os limites por hora e por semana ainda nem tinham sido ultrapassados
- A base desse alerta também não era explicada na tela
- Cerca de duas horas depois, esse alerta desapareceu e foi possível voltar a trabalhar
- A documentação também não menciona limite mensal de uso
- Como a página de configurações diz que só mostra a sessão atual e o limite semanal, a natureza desse limite mensal permaneceu indefinida até o fim
Efeito na produtividade e cancelamento final
- O apreço pelo produto em si continua grande, e a avaliação é de que, em teoria, tudo funciona muito bem e há muitas oportunidades
- Foi criado um harness próprio baseado em Claude, e o Claude Caude, que lida com issues do GitHub em segundo plano, também é muito bem avaliado
- O texto também segue sendo escrito com o Claude Cowork para a Nerd Enzyklopädie
- A produtividade aumentou não apenas algumas vezes, mas em uma ordem de grandeza, tornando possível transformar ideias em algo concreto muito mais rápido e facilmente do que há alguns anos
- O potencial do produto e sua utilidade prática ficam claros
- Também há uma avaliação positiva de que o conjunto de recursos foi montado com cuidado
- Ao mesmo tempo, há o entendimento de que operar um produto assim envolve dificuldades técnicas e organizacionais, e vender inferência segue uma estrutura de custo marginal, em que cada tempo adicional e cada novo cliente exigem o mesmo nível de recursos computacionais
- Isso também revela uma estrutura em que é difícil obter economias de escala
- Não há negação da dificuldade inerente de operar o serviço
- No fim, a conclusão é que a Anthropic parece não conseguir absorver tantos novos clientes de uma vez, e a conta é cancelada com a observação de que isso serviria para aliviar essa carga
- A distância entre o carinho pelo produto e os problemas operacionais sentidos no uso real acabou levando à decisão de cancelar
- O resultado final é resumido como um acúmulo de suporte fraco, queda de qualidade e confusão com os limites de uso
10 comentários
“Nas primeiras semanas, a cota de tokens parecia rápida e justa”??
Quem é que decide o que é justo?
Quando um serviço de 220 dólares por mês não consegue nem atingir 99,5% de disponibilidade, dá até para pensar que o usuário está sendo feito de trouxa. E o Claude.ai nem consegue chegar a 99%.
Que serviço você está usando no lugar? Codex? Continuo usando porque não vejo uma alternativa...
É verdade que não há alternativas, mas é a primeira vez na vida que uso um serviço que não consegue manter nem 99% de uptime..
O GitHub provavelmente vai ter que brigar não só com 99, mas até com 95.
Como há problemas de sincronização dos dados do projeto no Claude AI, não é fácil migrar, então por enquanto pretendo usar em paralelo Claude Code, Codex e Gemini CLI.
Se houver alternativas, eu também gostaria de saber.
Limite de uso mensal
Limite de uso anual
kkkk...
É bom para os consumidores quando Claude e ChatGPT competem haha. Também espero que o Gemini entre logo na disputa, e os modelos chineses também estão evoluindo muito, então tomara que todos briguem ferozmente entre si.
Comentários do Hacker News
Mesmo escrevendo documentos de especificação detalhados em vários arquivos, com Markdown e código de exemplo, e passando tudo para o Claude Sonnet, houve casos em que ele esquecia requisitos, criava código duplicado ou até colocava processamento de dados desnecessário
Também parecia enfeitar os testes à força só para fazê-los passar, então no fim, em vez de escrever código, eu acabava lendo uma quantidade enorme de código
Na prática, ler código e formar um modelo mental já é muito mais difícil do que programar, e com Gen AI esse peso só aumenta
Então, na faixa de preço atual da Anthropic, vejo isso como prejuízo líquido
Não estou fazendo vibe coding, e sim construindo software do qual usuários reais dependem, então pretendo cancelar a assinatura em breve
Faz mais sentido encaixá-la no ciclo normal de testes e lint para revisar, avaliar rapidamente bibliotecas de terceiros, pesquisar temas novos, rascunhar RFCs e documentos de arquitetura, ou usá-la como interlocutora ao atacar problemas difíceis
Continuo não gostando muito das empresas de IA e ainda me incomoda o fato de tudo isso ser construído em cima de violação de direitos autorais, mas os modelos mais recentes são absurdamente inteligentes em certos aspectos
Não precisa comprar o hype do vibecoding; usá-la só como ferramenta de produtividade já tem bastante valor
Você pode até optar por não usar ou não pagar nenhuma empresa específica, mas acho que não faz sentido descartar toda essa tecnologia só por causa do vibecoding
Em vez de entregar a especificação inteira do sistema, faça você mesmo o design e, se precisar, peça ajuda só no design; na implementação, mande uma coisa por vez, porque a precisão fica maior
Se você revisar e mandar corrigir em cada etapa antes de seguir, continua sendo mais rápido do que escrever tudo sozinho e, ao mesmo tempo, fica muito mais controlável
Isso fica mais perto de um vibecoding com uma etapa extra de documentação, e, se a ideia é reduzir o trabalho de organização, provavelmente é melhor usar o melhor modelo disponível naquele momento do que o Sonnet
Mesmo assim, nenhum modelo vai resolver tudo perfeitamente, então em vez de usar num esquema de tudo ou nada,
o mais realista é continuar fazendo o julgamento por conta própria e acoplar a IA apenas nos trechos em que ela ajuda a acelerar
Engenheiros não juniores em geral acabam se estabelecendo assim, e é melhor ignorar os exageros de geração automática de apps no LinkedIn e nas redes sociais
Mesmo usando de forma parecida, eu produzo código mais rápido e com qualidade melhor, e o esforço no pulso também caiu bastante
A diferença parece estar em só delegar à IA o que ela realmente consegue fazer e gerenciar o escopo de forma estreita e incremental
Mudanças pequenas e claras são fáceis de revisar, mas receber diariamente um dump de 10 mil linhas de código torna a avaliação difícil
Talvez você esteja forçando demais, rápido demais e cedo demais
Com o equilíbrio certo, o valor aparece; talvez não seja explosivamente mais rápido do que você espera, mas ainda tem boas chances de ser mais rápido do que fazer tudo sozinho
Precisa de validação e checagem frequentes, e o plano às vezes exige várias revisões, mas continuo usando o Opus também para implementar
No momento o modelo está com cache ativo, então às vezes aparece um aviso para não implementar com o Sonnet
Leva tempo para ler e entender, e faço correções manuais com frequência, mas em geral consigo resolver tudo dentro da assinatura Pro
Tenho usado o Claude Opus com bastante eficácia e não costumo bater no limite com frequência no plano intermediário
Meu modo de trabalhar é mais copilot do que autopilot: mando por prompt apenas tarefas de escopo limitado e reviso quase tudo
Para esse tipo de uso, sinto que os modelos líderes já chegaram a um nível bom o suficiente
Seria ótimo surgir um modelo open source, treinado sobre base de código devidamente licenciada, para que o coding assistido por LLM virasse uma commodity
Elas querem que a gente gaste mais tokens para poder cobrar mais, mas ao mesmo tempo também parece que o uso acima do esperado tornou difícil sustentar o modelo atual de preços
Se no fim a solução delas for empurrar todo mundo para planos mais caros, então essas duas coisas nem chegam a entrar em conflito
Dá para ter isso por 100 dólares por mês, e em países desenvolvidos não faltam casas em que isso sai mais barato do que a conta de luz
Na minha visão, coding assistido por LLM é quando você entende completamente cada mudança e cada linha; se não for assim, então é vibe coding
Se levar esse princípio a sério, acho difícil gastar toda a cota do plano de $100
Entre os vários modelos, este me parece o melhor, mas uso principalmente de vez em quando como substituto de mecanismo de busca, e não tanto para mandar fazer trabalho real
Nunca achei que LLM fosse eficiente para realmente fazer o trabalho por mim, e sinto falta da época em que a documentação técnica era realmente útil
No fim, o Claude parece mais uma muleta para preencher lacunas na experiência de desenvolvedor
É extremamente difícil consumir toda a cota; mesmo delegando bastante trabalho real, termino a semana em algo como 30% em média
Já no Pro eu batia no limite com uma frequência ridícula, e às vezes um único pedido passava de 100% da sessão e gerava cobrança extra
O Max 5x, na prática, parece muito mais do que 5x, mas a Anthropic é tão vaga ao tratar coisas como surge rate que não dá para ter certeza
Estou bastante cético com essa enxurrada recente no HN de posts no estilo “Opus morreu, vamos de Codex”
Parte pode ser só desabafo, mas uma parte também tem cheiro de astroturfing
Uso bastante no trabalho real e mesmo assim nunca bati no limite
Deixar LLM rodando por horas parece, no fim, uma receita para desperdiçar meu tempo tentando rastrear o que ele fez e por que fez
O que me preocupa é as pessoas passarem a depender de uma GenAI proprietária, opaca e por assinatura
Elas constroem coisas em cima disso como se fosse uma base sólida, mas um dia o dono pode simplesmente puxar essa base de uma hora para outra
Ultimamente o rate limit me incomodou um pouco e por isso preferi mais o Codex do que o CC, mas o modo de trabalhar em si quase não precisou mudar
Querem gastar dinheiro suficiente para esmagar os concorrentes, abrir uma distância impossível de alcançar e depois definir os preços como quiserem
Mesmo assim, a concorrência ainda está forte e, para ferramentas de programação, a Anthropic continua sendo a melhor, embora essa vantagem seja menor do que antes
Sinceramente, algo como o Opus 4.5 já tinha alcançado um nível suficientemente utilizável, e hoje já existem vários modelos nessa faixa
O Gemini Pro 3.1 é parecido, e o Codex atual me parece melhor do que o Opus 4.5 e mais próximo do 4.7
Eu mesmo troco de modelo e de agente com frequência no mesmo projeto, e o custo de transição é praticamente zero
Basta rodar
gemini,copilotouhermesno lugar declaude, então não existe uma dependência muito profunda de um modelo específicoAs empresas vão tentar adicionar recursos que criem lock-in, mas os modelos de ponta já são tão inteligentes que muitas vezes basta pedir diretamente o que você precisa
No momento, o único moat consistente é a capacidade de construir o melhor modelo, e até isso é raso o bastante para que o desaparecimento do Claude Code amanhã não seja algo fatal
Os modelos abertos com hospedagem própria também já estão bem próximos
A competição entre OpenAI e Anthropic também é interessante, e com a corrente open source somada a isso, parece que vamos chegar logo nesse ponto
O Claude, em Sonnet medium effort, consumiu 100% do limite de uma sessão e ainda gerou cobrança extra, ficou pensando por 53 minutos e no fim só devolveu
API Error: Claude's response exceeded the 32000 output token maximum...API Error: Claude's response exceeded the 32000 output token maximumcontinua funcionando perfeitamenteVi isso várias vezes nos últimos meses; no começo achei que fosse problema do AWS Bedrock, mas aparentemente não é só isso
Eu e vários colegas vimos uma queda grande na capacidade cognitiva do Claude ao longo dos últimos dois meses
O 4.5 era utilizável e o 4.6 era realmente bom; pelos meus benchmarks pessoais, o 4.5 mal conseguia acompanhar algo como um loop de merge com ponteiros em 2 vias, enquanto o 4.6 fazia 3 vias, e com contexto de 1M chegava até k-way
Essa capacidade de rastreamento era o que o tornava útil para entender e modificar código real de produção
Só que, desde uns dois meses atrás, o 4.6 começou a esquecer coisas e a tomar decisões idiotas, e quando comparei com outras pessoas vi que não era só comigo
O 4.7 também não melhorou muito, e nas últimas semanas parece que estou o tempo todo lutando contra o downgrade automático do level of effort
Quando algo parece burro e eu vou olhar as configurações, vejo que foi discretamente rebaixado, o que gera bastante atrito
Já está provado que um modelo tão bom quanto o 4.6 do início é possível; o problema é que, no processo de servir o mercado de massa, a Anthropic faz throttle e downgrade, e isso reduz a utilidade no uso real
Acho que, em breve, quando o DeepSeek alcançar um nível mais do que bom o suficiente na faixa do 4.6+, muita gente vai sair dessa lógica do Claude de pagar mais para receber menos
Não é que a gente precise de algo mais impressionante; a gente só quer usar de forma estável algo que já é possível, com controle nosso e provisionamento em vez de cobrança por medição
Quando uma empresa comete um erro desses, é claro que irrita, mas por um tempo eles afrouxaram os limites como compensação e, acima de tudo, foram relativamente transparentes na resposta
Não sei se outras grandes empresas de IA seriam tão transparentes assim, então, embora eu fique irritado com o Claude, respeito a forma como lidaram com isso
Minha assinatura max20 está praticamente parada desde abril, e o Codex 5.4 e agora o 5.5 parecem completamente diferentes, mesmo usando fast mode
O Opus fracassa de um jeito plausível, esquece metade dos detalhes importantes ou discretamente cola um remendo de dívida técnica em nome do pragmatismo e insiste que deu certo
Na prática, o sistema fica destruído depois da mudança, e se você aponta os erros ele às vezes cria uma bagunça ainda maior
O Opus é bom para gerar algo de escopo greenfield de uma vez, mas depois, para iterar ou fazer integrações complexas, ele é ruim a ponto de ser prejudicial
Já o GPT 5.4+ leva tempo para considerar antes os edge cases, acerta de verdade e reduz os turnos posteriores de debug, entregando o resultado corretamente
Ele também não entra em loop de pensamento por minutos, mesmo para corrigir um script de uma linha, dizendo coisas como “isso não parece malware” ou “só um momento”
Arrumar código é uma tarefa diferente de implementar funcionalidade nova, e modelos do tipo GLM, mesmo quando parecem se comportar de forma mais inteligente, no fim ainda exigem um ciclo de build/prune quando você revisa o código de verdade
“isso aqui está cheio de race condition, não está?”
Hoje uso só Codex, porque o Claude ficou difícil de confiar e deixa data races e negações ausentes com frequência demais
Hoje em dia estou usando o Aider, e provavelmente também vou cancelar a assinatura do pacote multi AI do Github por causa da nova política de treinamento
Usar o Aider com os novos modelos abertos e negociar requisitos com Open Spec antes de passar adiante ajudou bastante
Os serviços de IA têm pouco incentivo para reduzir o uso de tokens
Eles ganham mais quando fazem você gastar mais tokens, então provavelmente vão continuar testando até onde dá para empurrar isso antes de o usuário ficar irritado
Todas as empresas de IA vão continuar se reposicionando entre uso de tokens e preço conforme os custos aumentam,
e nós parecemos um sapo em água morna prestes a ferver, enquanto ainda insistem que isso é só água de banho
As empresas de IA têm um incentivo parecido
Se ficar mais barato, as pessoas usam mais; e desde que o preço fique acima do custo, a receita total pode aumentar
Então elas também têm bons motivos para reduzir os próprios custos
Por isso criei o https://github.com/dirac-run/dirac, um fork open source do cline, com foco exclusivo em eficiência de tokens
Minha aposta é que os fornecedores de lock-in fechado vão frustrar os usuários o suficiente ao longo do tempo, e estamos procurando contribuidores
Parece teoria da conspiração, mas empresas como a Anthropic lucram até quando o modelo não consegue concluir o trabalho
Também li recentemente sobre o fenômeno da over editing, e parece que a máquina nunca quer terminar
É parecido com app de namoro que não quer gerar bons matches
Porque, se der certo, o usuário cancela a assinatura
Ontem foi meu momento de epifania
Deleguei uma extração simples ao Claude Code ligado a um LLM local, e ele ficou zumbindo por 10 minutos
Peguei os mesmos dados e o mesmo prompt e coloquei direto no modelo pela UI de chat do
llama_cpp, e ele resolveu em single-shot em menos de um minutoEntão alguma coisa está claramente errada no próprio agente de programação ou na maneira como ele conversa com o LLM
Agora estou procurando um agente de programação open source bem simples; o Nanocoder instala mal no Mac e eu também não gosto de ter um node-modules gigante, e o Opencode não me parece totalmente open source
Por enquanto estou eu mesmo fazendo o papel do agente de programação usando a interface web do
llama_cpp, e isso tem funcionado razoavelmente bemO repositório está sob MIT License
Se você quer um agente de programação “extremamente simples”, na verdade isso se encaixa muito bem nesse tipo de abordagem personalizada
Eu mesmo fiz isso esta semana depois de me irritar com o comportamento estranho da Anthropic, e em poucos dias já tinha algo utilizável no ar
No meu caso foi ainda mais natural bootstrapar e encaixar tudo sozinho, porque eu uso BeOS e Macs antigos, onde não existe Claude Code
Passar por esse processo ensina bastante sobre como o modelo realmente funciona e sobre quantos remendos absurdos estão rodando dentro do Claude Code
Claro, você também acaba entendendo um pouco melhor as dificuldades reais que o agente ou o harness precisam resolver
E eu também senti essa lentidão do Claude Code em comparação com o
llama_cpp; meu palpite é que o tráfego da API recebe prioridade sobre o tráfego de assinantesA API parece muito mais rápida, mas também custa muito mais caro
A estrutura é bem mais simples do que parece
Já fiz na prática acoplando um shim fino ao vLLM só para adaptar a sintaxe do endpoint
Às vezes o mesmo modelo do Claude comete erro lógico num momento e em outro não
O desempenho do Claude parece depender do horário, e existe até um gráfico mostrando isso
https://marginlab.ai/trackers/claude-code/
E, embora isso não seja muito discutido publicamente, também tenho a sensação de que até no mesmo modelo há bastante diferença dependendo da quantização
4-bit e 8-bit têm exigências computacionais diferentes e também qualidade de saída diferente
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Eu sei que modelos de fronteira não se comportam de forma idêntica o tempo todo, mas em horário de pico fico me perguntando se não existe algum controle de fidelidade em algum lugar, reduzindo memória ou uso de recursos para ajustar o desempenho
A linha de 60% fica dentro do intervalo de confiança de 95%, então pode ser simplesmente ruído de medição, não?