2 pontos por johnonlee 2 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Enquanto usava o OpenCode Go, encontrei algo estranho no dashboard. Era o mesmo modelo, com tokens de entrada parecidos (300K vs 257K), mas o custo foi de $0.0096 vs $0.4455 — uma diferença de 46 vezes. A causa é o cache de prompts.

Os LLMs reutilizam computações anteriores quando o mesmo prefixo se repete, e a maioria dos agentes de programação envia o histórico completo da conversa (transcript) a cada turno. No curto prazo isso fica barato graças ao cache, mas quando a janela de contexto enche e ocorre a compactação, o prefixo se quebra e o cache é invalidado.

Neste texto, o autor analisa o custo oculto do método baseado em transcript e uma abordagem alternativa, que envia apenas o estado estruturado, junto com dados reais de uma sessão de depuração de 44 turnos (redução de 80,4% nos tokens). A questão não é apenas ter ou não ter cache, mas a diferença entre uma estrutura em que "nunca se sabe quando o cache vai quebrar" e outra que "não depende do cache".

Ainda não há comentários.

Ainda não há comentários.