Por que cancelei o Claude: problemas com tokens, queda de qualidade e suporte fraco

(nickyreinert.de)

9 pontos por GN⁺ 5 일 전 | 10 comentários | Compartilhar no WhatsApp

Nas primeiras semanas, fiquei bastante satisfeito com a velocidade rápida, a cota de tokens que parecia justa e a boa qualidade dos resultados, mas há cerca de 3 semanas essa percepção mudou bastante
Depois de ficar 10 horas sem usar e voltar, enviei apenas duas perguntas curtas ao Claude Haiku, e o uso disparou para 100%; o canal de suporte, após respostas automatizadas que não abordavam o ponto principal, acabou na prática sendo encerrado
Recentemente, antes eu tocava vários projetos ao mesmo tempo, mas agora até em um único projeto a cota de tokens se esgota em duas horas; durante um refactor, acabei gastando cerca de metade da janela de 5 horas só para corrigir um atalho barato
Depois de certo tempo, o cache da conversa desaparecia, e o custo de reler todo o codebase se repetia; somado à mudança do marco semanal e a alertas de limite mensal sem explicação, o sistema de limites deixou de parecer consistente
Embora reconheça fortemente o ganho de produtividade e o potencial do produto, o acúmulo de suporte deficiente, queda de qualidade e confusão com as limitações de uso acabou levando ao cancelamento da conta da Anthropic

Satisfação inicial e a mudança posterior

Nas primeiras semanas da assinatura do Claude Code, a velocidade era rápida, a cota de tokens parecia justa e a qualidade dos resultados era boa
- Também era possível ver o aviso dizendo que haviam aumentado a cota de tokens em horários menos congestionados
- Somado a uma postura contrária a algumas regras governamentais, isso também gerou simpatia pelo produto
Há cerca de 3 semanas, essa satisfação inicial começou a desaparecer rapidamente
- Nas seções seguintes, os problemas de suporte, qualidade e limite de uso passam a se repetir

Problemas na qualidade do suporte

Depois de descansar cerca de 10 horas e supor que os tokens tinham sido recarregados, comecei a trabalhar pela manhã, mas logo após enviar duas perguntas curtas ao Claude Haiku, sem relação com o repositório, o uso de tokens disparou para 100%
- As perguntas eram simples e pequenas
- A atualização esperada dos tokens e o aumento real no uso não batiam
Entrei em contato com o bot de suporte por IA, mas ele só devolveu orientações básicas e nem entendeu corretamente o problema real
- Depois disso, pedi suporte humano
- Alguns dias depois, a resposta recebida também pareceu fora de sintonia com o problema real
A resposta começava com a frase de que “o sistema detectou uma dúvida sobre limites de uso dos planos Pro ou Max”, mas na prática eu já estava usando o plano Pro e o ponto central da solicitação também não foi corretamente compreendido
- Em seguida, o corpo da mensagem trazia uma longa explicação em formato de documentação sobre limites diários e semanais
- Também não havia qualquer fluxo que resolvesse ou tratasse diretamente do problema relatado
No final do e-mail, havia a mensagem de que respostas adicionais talvez não fossem monitoradas e que eu deveria visitar a página de ajuda; na prática, o canal de suporte foi encerrado
- Em outras palavras, depois de uma resposta automatizada que nem refletia o problema real, até o caminho de suporte acabou bloqueado
- A frustração com a qualidade do suporte começou a crescer de fato

Queda de qualidade

Nos dias e semanas seguintes, a qualidade dos resultados já não foi satisfatória em comparação com a experiência inicial, e o tempo útil de trabalho também caiu bastante
- Antes, era possível tocar até três projetos ao mesmo tempo, mas agora até em um único projeto a cota de tokens acaba em duas horas
- A quantidade disponível e a produtividade percebida pioraram juntas
Também é apontado que a avaliação de qualidade pode ser subjetiva e que o desempenho do agente é muito influenciado pelo usuário
- Ao mesmo tempo, a pessoa relata que também usa GitHub Copilot, OpenAI Codex, OMLX, Continue e Qwen3.5-9B, o que deixa evidente uma experiência comparativa entre ferramentas
- Não há a pretensão de reivindicar expertise absoluta, mas a queda percebida vem de alguém que já testou várias ferramentas
Em um caso em que foi pedido ao Claude Opus para refatorar um projeto, o log de raciocínio do modelo mostrava a direção de adicionar um inicializador genérico em ui-events.js para injetar automaticamente a exibição de valores, em vez de ajustar diretamente todos os sliders no JSX
- Essa abordagem era uma solução de contorno que inseria automaticamente a exibição de valor quando ela não existia em cada range input
- Esses logs passaram a parecer algo que precisava ser verificado com frequência, e não apenas ocasionalmente
Essa abordagem foi avaliada não como boa prática, mas como um atalho barato; ao apontar isso diretamente, o Opus também reconheceu que era uma solução preguiçosa e mudou para adicionar os rótulos diretamente no JSX e conectá-los de forma explícita
- Só para corrigir essa direção inicial equivocada, foi gasto cerca de 50% da cota de tokens da janela de 5 horas
- A queda de qualidade deixou de ser apenas impressão e passou a significar desperdício real de custo

Confusão com cache e exibição de limites

O problema do cache de conversa também surgiu de forma nova, e junto com isso são ligados o postmortem da Anthropic e a discussão no Hacker News
- O fato de a empresa estar tratando o problema publicamente é visto de forma positiva
- Ainda assim, o peso para a experiência do usuário permanece
Depois de um certo tempo e ao voltar ao trabalho, o cache da conversa desaparecia e o modelo voltava a ler o codebase desde o começo
- Do ponto de vista de custo, isso pode até fazer sentido para a empresa, mas para o usuário significa pagar com tokens pelo carregamento inicial, ser forçado a pausar e depois pagar de novo pelo mesmo carregamento
- Especialmente quando se voltava após a limitação da janela de 5 horas de tokens, esse mesmo custo era pago repetidamente
Também houve um caso em que a janela semanal mudou de repente da data atual para segunda-feira, e junto com a mudança o uso foi zerado
- O reset em si foi bem-vindo, mas não ficou claro por que essa alteração aconteceu
- Isso reforçou a impressão de que o sistema de limites não parecia consistente
Enquanto acompanhava continuamente o uso de tokens durante o trabalho em um projeto, surgiu de repente um alerta dizendo que eu precisava me preocupar com um limite mensal de uso, mesmo sem ser usuário corporativo
- Naquele momento, os limites por hora e por semana ainda nem tinham sido ultrapassados
- A base desse alerta também não era explicada na tela
Cerca de duas horas depois, esse alerta desapareceu e foi possível voltar a trabalhar
- A documentação também não menciona limite mensal de uso
- Como a página de configurações diz que só mostra a sessão atual e o limite semanal, a natureza desse limite mensal permaneceu indefinida até o fim

Efeito na produtividade e cancelamento final

O apreço pelo produto em si continua grande, e a avaliação é de que, em teoria, tudo funciona muito bem e há muitas oportunidades
- Foi criado um harness próprio baseado em Claude, e o Claude Caude, que lida com issues do GitHub em segundo plano, também é muito bem avaliado
- O texto também segue sendo escrito com o Claude Cowork para a Nerd Enzyklopädie
A produtividade aumentou não apenas algumas vezes, mas em uma ordem de grandeza, tornando possível transformar ideias em algo concreto muito mais rápido e facilmente do que há alguns anos
- O potencial do produto e sua utilidade prática ficam claros
- Também há uma avaliação positiva de que o conjunto de recursos foi montado com cuidado
Ao mesmo tempo, há o entendimento de que operar um produto assim envolve dificuldades técnicas e organizacionais, e vender inferência segue uma estrutura de custo marginal, em que cada tempo adicional e cada novo cliente exigem o mesmo nível de recursos computacionais
- Isso também revela uma estrutura em que é difícil obter economias de escala
- Não há negação da dificuldade inerente de operar o serviço
No fim, a conclusão é que a Anthropic parece não conseguir absorver tantos novos clientes de uma vez, e a conta é cancelada com a observação de que isso serviria para aliviar essa carga
- A distância entre o carinho pelo produto e os problemas operacionais sentidos no uso real acabou levando à decisão de cancelar
- O resultado final é resumido como um acúmulo de suporte fraco, queda de qualidade e confusão com os limites de uso

10 comentários

iolothebard 4 일 전

“Nas primeiras semanas, a cota de tokens parecia rápida e justa”??
Quem é que decide o que é justo?

savvykang 5 일 전

Quando um serviço de 220 dólares por mês não consegue nem atingir 99,5% de disponibilidade, dá até para pensar que o usuário está sendo feito de trouxa. E o Claude.ai nem consegue chegar a 99%.

geralt 5 일 전

Que serviço você está usando no lugar? Codex? Continuo usando porque não vejo uma alternativa...

vndk2234 4 일 전

É verdade que não há alternativas, mas é a primeira vez na vida que uso um serviço que não consegue manter nem 99% de uptime..

lamanus 4 일 전

O GitHub provavelmente vai ter que brigar não só com 99, mas até com 95.

savvykang 4 일 전

Como há problemas de sincronização dos dados do projeto no Claude AI, não é fácil migrar, então por enquanto pretendo usar em paralelo Claude Code, Codex e Gemini CLI.

savvykang 4 일 전

Se houver alternativas, eu também gostaria de saber.

picopress 5 일 전

Limite de uso mensal
Limite de uso anual
kkkk...

emptybynature 4 일 전

É bom para os consumidores quando Claude e ChatGPT competem haha. Também espero que o Gemini entre logo na disputa, e os modelos chineses também estão evoluindo muito, então tomara que todos briguem ferozmente entre si.

GN⁺ 5 일 전

Comentários do Hacker News

Mesmo escrevendo documentos de especificação detalhados em vários arquivos, com Markdown e código de exemplo, e passando tudo para o Claude Sonnet, houve casos em que ele esquecia requisitos, criava código duplicado ou até colocava processamento de dados desnecessário
Também parecia enfeitar os testes à força só para fazê-los passar, então no fim, em vez de escrever código, eu acabava lendo uma quantidade enorme de código
Na prática, ler código e formar um modelo mental já é muito mais difícil do que programar, e com Gen AI esse peso só aumenta
Então, na faixa de preço atual da Anthropic, vejo isso como prejuízo líquido
Não estou fazendo vibe coding, e sim construindo software do qual usuários reais dependem, então pretendo cancelar a assinatura em breve
- Em vez de deixar a IA escrever o código no seu lugar, use-a mais como um assistente de code review
  Faz mais sentido encaixá-la no ciclo normal de testes e lint para revisar, avaliar rapidamente bibliotecas de terceiros, pesquisar temas novos, rascunhar RFCs e documentos de arquitetura, ou usá-la como interlocutora ao atacar problemas difíceis
  Continuo não gostando muito das empresas de IA e ainda me incomoda o fato de tudo isso ser construído em cima de violação de direitos autorais, mas os modelos mais recentes são absurdamente inteligentes em certos aspectos
  Não precisa comprar o hype do vibecoding; usá-la só como ferramenta de produtividade já tem bastante valor
  Você pode até optar por não usar ou não pagar nenhuma empresa específica, mas acho que não faz sentido descartar toda essa tecnologia só por causa do vibecoding
- É melhor parar de passar tudo de uma vez e quebrar o trabalho em partes, microgerenciando
  Em vez de entregar a especificação inteira do sistema, faça você mesmo o design e, se precisar, peça ajuda só no design; na implementação, mande uma coisa por vez, porque a precisão fica maior
  Se você revisar e mandar corrigir em cada etapa antes de seguir, continua sendo mais rápido do que escrever tudo sozinho e, ao mesmo tempo, fica muito mais controlável
- Escrever uma especificação detalhada e entregar tudo para a IA de uma vez não é o ideal
  Isso fica mais perto de um vibecoding com uma etapa extra de documentação, e, se a ideia é reduzir o trabalho de organização, provavelmente é melhor usar o melhor modelo disponível naquele momento do que o Sonnet
  Mesmo assim, nenhum modelo vai resolver tudo perfeitamente, então em vez de usar num esquema de tudo ou nada,
  o mais realista é continuar fazendo o julgamento por conta própria e acoplar a IA apenas nos trechos em que ela ajuda a acelerar
  Engenheiros não juniores em geral acabam se estabelecendo assim, e é melhor ignorar os exageros de geração automática de apps no LinkedIn e nas redes sociais
- O problema de muita gente parece vir de expectativas irreais
  Mesmo usando de forma parecida, eu produzo código mais rápido e com qualidade melhor, e o esforço no pulso também caiu bastante
  A diferença parece estar em só delegar à IA o que ela realmente consegue fazer e gerenciar o escopo de forma estreita e incremental
  Mudanças pequenas e claras são fáceis de revisar, mas receber diariamente um dump de 10 mil linhas de código torna a avaliação difícil
  Talvez você esteja forçando demais, rápido demais e cedo demais
  Com o equilíbrio certo, o valor aparece; talvez não seja explosivamente mais rápido do que você espera, mas ainda tem boas chances de ser mais rápido do que fazer tudo sozinho
- Talvez eu use de forma diferente das outras pessoas, mas, se eu só escrever o que quero e do jeito que quero, o Opus 4.7 monta um plano e eu reviso tudo com bastante cuidado
  Precisa de validação e checagem frequentes, e o plano às vezes exige várias revisões, mas continuo usando o Opus também para implementar
  No momento o modelo está com cache ativo, então às vezes aparece um aviso para não implementar com o Sonnet
  Leva tempo para ler e entender, e faço correções manuais com frequência, mas em geral consigo resolver tudo dentro da assinatura Pro
Tenho usado o Claude Opus com bastante eficácia e não costumo bater no limite com frequência no plano intermediário
Meu modo de trabalhar é mais copilot do que autopilot: mando por prompt apenas tarefas de escopo limitado e reviso quase tudo
Para esse tipo de uso, sinto que os modelos líderes já chegaram a um nível bom o suficiente
Seria ótimo surgir um modelo open source, treinado sobre base de código devidamente licenciada, para que o coding assistido por LLM virasse uma commodity
- Eu também uso de forma parecida, no modo copilot, e no geral estou satisfeito, mas dá a sensação de que as empresas querem nos empurrar para o modo autopilot
  Elas querem que a gente gaste mais tokens para poder cobrar mais, mas ao mesmo tempo também parece que o uso acima do esperado tornou difícil sustentar o modelo atual de preços
  Se no fim a solução delas for empurrar todo mundo para planos mais caros, então essas duas coisas nem chegam a entrar em conflito
- Acho que a comoditização do coding assistido por LLM já aconteceu, não?
  Dá para ter isso por 100 dólares por mês, e em países desenvolvidos não faltam casas em que isso sai mais barato do que a conta de luz
  Na minha visão, coding assistido por LLM é quando você entende completamente cada mudança e cada linha; se não for assim, então é vibe coding
  Se levar esse princípio a sério, acho difícil gastar toda a cota do plano de $100
- Eu também sou mais copilot do que autopilot
  Entre os vários modelos, este me parece o melhor, mas uso principalmente de vez em quando como substituto de mecanismo de busca, e não tanto para mandar fazer trabalho real
  Nunca achei que LLM fosse eficiente para realmente fazer o trabalho por mim, e sinto falta da época em que a documentação técnica era realmente útil
  No fim, o Claude parece mais uma muleta para preencher lacunas na experiência de desenvolvedor
- Uso o Max 5x só com Claude Opus em modo xhigh, não uso agent nem MCP, apenas o Claude Code
  É extremamente difícil consumir toda a cota; mesmo delegando bastante trabalho real, termino a semana em algo como 30% em média
  Já no Pro eu batia no limite com uma frequência ridícula, e às vezes um único pedido passava de 100% da sessão e gerava cobrança extra
  O Max 5x, na prática, parece muito mais do que 5x, mas a Anthropic é tão vaga ao tratar coisas como surge rate que não dá para ter certeza
  Estou bastante cético com essa enxurrada recente no HN de posts no estilo “Opus morreu, vamos de Codex”
  Parte pode ser só desabafo, mas uma parte também tem cheiro de astroturfing
- Mesma coisa comigo
  Uso bastante no trabalho real e mesmo assim nunca bati no limite
  Deixar LLM rodando por horas parece, no fim, uma receita para desperdiçar meu tempo tentando rastrear o que ele fez e por que fez
O que me preocupa é as pessoas passarem a depender de uma GenAI proprietária, opaca e por assinatura
Elas constroem coisas em cima disso como se fosse uma base sólida, mas um dia o dono pode simplesmente puxar essa base de uma hora para outra
- Ainda assim, esses produtos têm bastante substituibilidade entre si
  Ultimamente o rate limit me incomodou um pouco e por isso preferi mais o Codex do que o CC, mas o modo de trabalhar em si quase não precisou mudar
- Pelo menos parte dos investidores está mirando aqui uma posição monopolista
  Querem gastar dinheiro suficiente para esmagar os concorrentes, abrir uma distância impossível de alcançar e depois definir os preços como quiserem
  Mesmo assim, a concorrência ainda está forte e, para ferramentas de programação, a Anthropic continua sendo a melhor, embora essa vantagem seja menor do que antes
  Sinceramente, algo como o Opus 4.5 já tinha alcançado um nível suficientemente utilizável, e hoje já existem vários modelos nessa faixa
  O Gemini Pro 3.1 é parecido, e o Codex atual me parece melhor do que o Opus 4.5 e mais próximo do 4.7
  Eu mesmo troco de modelo e de agente com frequência no mesmo projeto, e o custo de transição é praticamente zero
  Basta rodar gemini, copilot ou hermes no lugar de claude, então não existe uma dependência muito profunda de um modelo específico
  As empresas vão tentar adicionar recursos que criem lock-in, mas os modelos de ponta já são tão inteligentes que muitas vezes basta pedir diretamente o que você precisa
  No momento, o único moat consistente é a capacidade de construir o melhor modelo, e até isso é raso o bastante para que o desaparecimento do Claude Code amanhã não seja algo fatal
  Os modelos abertos com hospedagem própria também já estão bem próximos
- Felizmente, a IA local está ficando cada dia mais viável
- Por isso, acho que o essencial são modelos open source e soberanos, acessíveis a todos e sempre disponíveis
  A competição entre OpenAI e Anthropic também é interessante, e com a corrente open source somada a isso, parece que vamos chegar logo nesse ponto
- Também consigo imaginar perfeitamente um cenário em que o próprio dono dá um rug pull, ou então a Broadcom compra e começa a espremer tudo
O Claude, em Sonnet medium effort, consumiu 100% do limite de uma sessão e ainda gerou cobrança extra, ficou pensando por 53 minutos e no fim só devolveu
API Error: Claude's response exceeded the 32000 output token maximum...
- E a piada de que no sétimo dia deu o mesmo API Error: Claude's response exceeded the 32000 output token maximum continua funcionando perfeitamente
- Acho que eu não deixaria passar de 5 minutos pensando
- Fico imaginando se, quando isso acontece, os agentic/vibe coders falam para o chefe: “não consigo trabalhar até amanhã”
- Se você colar essa mensagem de erro de volta no Claude, muitas vezes ele continua de onde parou
  Vi isso várias vezes nos últimos meses; no começo achei que fosse problema do AWS Bedrock, mas aparentemente não é só isso
- Fiquei curioso para saber se era plano Max 5x ou 20x
Eu e vários colegas vimos uma queda grande na capacidade cognitiva do Claude ao longo dos últimos dois meses
O 4.5 era utilizável e o 4.6 era realmente bom; pelos meus benchmarks pessoais, o 4.5 mal conseguia acompanhar algo como um loop de merge com ponteiros em 2 vias, enquanto o 4.6 fazia 3 vias, e com contexto de 1M chegava até k-way
Essa capacidade de rastreamento era o que o tornava útil para entender e modificar código real de produção
Só que, desde uns dois meses atrás, o 4.6 começou a esquecer coisas e a tomar decisões idiotas, e quando comparei com outras pessoas vi que não era só comigo
O 4.7 também não melhorou muito, e nas últimas semanas parece que estou o tempo todo lutando contra o downgrade automático do level of effort
Quando algo parece burro e eu vou olhar as configurações, vejo que foi discretamente rebaixado, o que gera bastante atrito
Já está provado que um modelo tão bom quanto o 4.6 do início é possível; o problema é que, no processo de servir o mercado de massa, a Anthropic faz throttle e downgrade, e isso reduz a utilidade no uso real
Acho que, em breve, quando o DeepSeek alcançar um nível mais do que bom o suficiente na faixa do 4.6+, muita gente vai sair dessa lógica do Claude de pagar mais para receber menos
Não é que a gente precise de algo mais impressionante; a gente só quer usar de forma estável algo que já é possível, com controle nosso e provisionamento em vez de cobrança por medição
- Isso aconteceu de verdade, e a própria Anthropic reconheceu recentemente em https://www.anthropic.com/engineering/april-23-postmortem
  Quando uma empresa comete um erro desses, é claro que irrita, mas por um tempo eles afrouxaram os limites como compensação e, acima de tudo, foram relativamente transparentes na resposta
  Não sei se outras grandes empresas de IA seriam tão transparentes assim, então, embora eu fique irritado com o Claude, respeito a forma como lidaram com isso
- Se você não estiver usando o 4.7 em xhigh ou max effort, honestamente é quase perda de tempo
Minha assinatura max20 está praticamente parada desde abril, e o Codex 5.4 e agora o 5.5 parecem completamente diferentes, mesmo usando fast mode
O Opus fracassa de um jeito plausível, esquece metade dos detalhes importantes ou discretamente cola um remendo de dívida técnica em nome do pragmatismo e insiste que deu certo
Na prática, o sistema fica destruído depois da mudança, e se você aponta os erros ele às vezes cria uma bagunça ainda maior
O Opus é bom para gerar algo de escopo greenfield de uma vez, mas depois, para iterar ou fazer integrações complexas, ele é ruim a ponto de ser prejudicial
Já o GPT 5.4+ leva tempo para considerar antes os edge cases, acerta de verdade e reduz os turnos posteriores de debug, entregando o resultado corretamente
Ele também não entra em loop de pensamento por minutos, mesmo para corrigir um script de uma linha, dizendo coisas como “isso não parece malware” ou “só um momento”
- Meu modelo mental sobre LLM é que não espero que ele ande e masque chiclete ao mesmo tempo
  Arrumar código é uma tarefa diferente de implementar funcionalidade nova, e modelos do tipo GLM, mesmo quando parecem se comportar de forma mais inteligente, no fim ainda exigem um ciclo de build/prune quando você revisa o código de verdade
- Dá até para brincar perguntando se você não quer me dar essa max20 que não está usando
- O fluxo mais produtivo que tive foi manter as duas assinaturas: deixar o Claude enfiar funcionalidades rapidamente, e o Codex revisar dizendo
  “isso aqui está cheio de race condition, não está?”
  Hoje uso só Codex, porque o Claude ficou difícil de confiar e deixa data races e negações ausentes com frequência demais
Hoje em dia estou usando o Aider, e provavelmente também vou cancelar a assinatura do pacote multi AI do Github por causa da nova política de treinamento
Usar o Aider com os novos modelos abertos e negociar requisitos com Open Spec antes de passar adiante ajudou bastante
Os serviços de IA têm pouco incentivo para reduzir o uso de tokens
Eles ganham mais quando fazem você gastar mais tokens, então provavelmente vão continuar testando até onde dá para empurrar isso antes de o usuário ficar irritado
Todas as empresas de IA vão continuar se reposicionando entre uso de tokens e preço conforme os custos aumentam,
e nós parecemos um sapo em água morna prestes a ferver, enquanto ainda insistem que isso é só água de banho
- Na época da AWS também se dizia “por que eles economizariam o seu dinheiro?”, mas na prática, quanto mais baixavam o preço, mais usuários apareciam e mais eles ganhavam
  As empresas de IA têm um incentivo parecido
  Se ficar mais barato, as pessoas usam mais; e desde que o preço fique acima do custo, a receita total pode aumentar
  Então elas também têm bons motivos para reduzir os próprios custos
- Isso é verdade até certo ponto, mas quando entram restrições de capacidade reais e a Anthropic também não é monopolista, sofrendo pressão competitiva, esse incentivo econômico muda
- Acho que as pessoas vão ficar cada vez mais cansadas do lock-in de agentes fechados
  Por isso criei o https://github.com/dirac-run/dirac, um fork open source do cline, com foco exclusivo em eficiência de tokens
  Minha aposta é que os fornecedores de lock-in fechado vão frustrar os usuários o suficiente ao longo do tempo, e estamos procurando contribuidores
- Esse incentivo existe até certo ponto, mas muda quando a empresa não consegue dar conta da demanda e os clientes começam a ir embora
- Também penso assim
  Parece teoria da conspiração, mas empresas como a Anthropic lucram até quando o modelo não consegue concluir o trabalho
  Também li recentemente sobre o fenômeno da over editing, e parece que a máquina nunca quer terminar
  É parecido com app de namoro que não quer gerar bons matches
  Porque, se der certo, o usuário cancela a assinatura
Ontem foi meu momento de epifania
Deleguei uma extração simples ao Claude Code ligado a um LLM local, e ele ficou zumbindo por 10 minutos
Peguei os mesmos dados e o mesmo prompt e coloquei direto no modelo pela UI de chat do llama_cpp, e ele resolveu em single-shot em menos de um minuto
Então alguma coisa está claramente errada no próprio agente de programação ou na maneira como ele conversa com o LLM
Agora estou procurando um agente de programação open source bem simples; o Nanocoder instala mal no Mac e eu também não gosto de ter um node-modules gigante, e o Opencode não me parece totalmente open source
Por enquanto estou eu mesmo fazendo o papel do agente de programação usando a interface web do llama_cpp, e isso tem funcionado razoavelmente bem
- https://pi.dev/ parece estar popular, e fiquei curioso sobre o que exatamente no Opencode não seria open source
  O repositório está sob MIT License
- Pode parecer um pouco fora da curva, mas você pode simplesmente pedir à IA que já está usando para construir o agente que você quer
  Se você quer um agente de programação “extremamente simples”, na verdade isso se encaixa muito bem nesse tipo de abordagem personalizada
  Eu mesmo fiz isso esta semana depois de me irritar com o comportamento estranho da Anthropic, e em poucos dias já tinha algo utilizável no ar
  No meu caso foi ainda mais natural bootstrapar e encaixar tudo sozinho, porque eu uso BeOS e Macs antigos, onde não existe Claude Code
  Passar por esse processo ensina bastante sobre como o modelo realmente funciona e sobre quantos remendos absurdos estão rodando dentro do Claude Code
  Claro, você também acaba entendendo um pouco melhor as dificuldades reais que o agente ou o harness precisam resolver
  E eu também senti essa lentidão do Claude Code em comparação com o llama_cpp; meu palpite é que o tráfego da API recebe prioridade sobre o tráfego de assinantes
  A API parece muito mais rápida, mas também custa muito mais caro
- Só comentando caso você ainda não tenha pensado nisso: é só construir o agente de programação que você quer
  A estrutura é bem mais simples do que parece
- A essa altura já deveria existir alguma ferramenta em algum ponto entre TUI e IDE
- Também dá para rodar o CC com um modelo local, e isso nem é tão difícil
  Já fiz na prática acoplando um shim fino ao vLLM só para adaptar a sintaxe do endpoint
Às vezes o mesmo modelo do Claude comete erro lógico num momento e em outro não
O desempenho do Claude parece depender do horário, e existe até um gráfico mostrando isso
https://marginlab.ai/trackers/claude-code/
E, embora isso não seja muito discutido publicamente, também tenho a sensação de que até no mesmo modelo há bastante diferença dependendo da quantização
4-bit e 8-bit têm exigências computacionais diferentes e também qualidade de saída diferente
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Eu sei que modelos de fronteira não se comportam de forma idêntica o tempo todo, mas em horário de pico fico me perguntando se não existe algum controle de fidelidade em algum lugar, reduzindo memória ou uso de recursos para ajustar o desempenho
- Não tenho certeza de que esse gráfico realmente mostre uma correlação com o tempo
  A linha de 60% fica dentro do intervalo de confiança de 95%, então pode ser simplesmente ruído de medição, não?