O preço dos tokens está ficando cada vez mais caro
(ethanding.substack.com)- Ao contrário da expectativa de que o custo dos tokens de LLM cairia 10x por ano, os serviços de assinatura de IA estão vendo sua rentabilidade piorar cada vez mais
- A demanda pelos modelos LLM mais recentes está sempre concentrada nos modelos de ponta (SOTA, State-of-the-art), então a queda de preço dos modelos “antigos” não se traduz em redução real de custos
- Quanto melhor o desempenho do modelo, maior o volume de tokens consumidos de forma exponencial, anulando a queda do preço unitário e fazendo o custo total disparar
- Experimentos com planos de assinatura ilimitados (ex.: Claude Code US$ 200/mês) também são insustentáveis por causa da explosão de uso de tokens por heavy users
- No longo prazo, não há modelo sustentável além da cobrança por uso, mas a estrutura competitiva entre startups e a resistência dos consumidores dificultam sua adoção na prática
- Sem migrar para um modelo de receita sustentável, a maioria das startups acabará enfrentando risco de falência
Negócio de assinaturas de IA: por que o prejuízo só aumenta mesmo com a queda do preço unitário dos tokens
A ilusão da queda no preço dos LLMs
- Fundadores acreditaram no playbook de VC de que “como o preço unitário do token cai 10x, basta aguentar um pouco que o negócio vira uma máquina de alta margem”, e por isso operaram produtos por assinatura no custo ou até no prejuízo no começo
- De fato, o preço por token de modelos antigos, como o GPT-3.5, caiu mais de 10x, mas a demanda dos usuários e do mercado continua sempre concentrada nos modelos mais novos e de melhor desempenho (SOTA)
- Na prática, passados 18 meses, a margem não melhorou — na verdade, piorou
- A redução de preço de modelos antigos só é perceptível em casos que já perderam o interesse do mercado, como “jornal de ontem”
Estrutura de preços e demanda dos modelos mais recentes
- Modelos recentes como GPT-4 e Claude 3 Opus sempre são lançados com preço alto semelhante, e por mais baratos que fiquem os modelos antigos, o uso real deles é mínimo
- Usuários querem apenas o “melhor desempenho”, e o “modelo antigo barato” não passa, no mercado, de um carro usado velho
- O que realmente se busca ao usar IA é o melhor resultado, então é raro ver alguém escolher espontaneamente um modelo antigo para economizar
- No fim, para manter competitividade no mercado, é preciso oferecer sempre o modelo mais novo e mais caro, o que mantém o custo elevado
- É como quando o preço de carros usados dos anos 90 cai, mas os consumidores continuam comprando carros novos
O aumento explosivo do uso de tokens
- Conforme o desempenho dos modelos melhora, surge o fenômeno de um único trabalho consumir uma quantidade de tokens que cresce exponencialmente
- No passado, uma tarefa podia terminar com 1.000 tokens; agora, pode consumir 100.000 tokens
- Antes, uma pergunta de uma frase recebia uma resposta de uma frase, mas hoje há pesquisas complexas, loops e orquestrações que rodam continuamente por 10 a 20 minutos, consumindo enormes volumes de tokens
- À medida que se pede à IA pesquisas/análises mais profundas, surgem casos como “20 minutos por execução, 24 horas por dia”, o que faz o uso médio diário por usuário disparar
- Por exemplo, se alguém usar apenas 1 vez por dia um 'deep research' que custa US$ 1, uma assinatura de US$ 20 já não fecha a conta
- A queda do preço unitário é compensada pelo aumento do consumo total de tokens, e chega-se ao ponto em que um plano de US$ 20/mês não consegue sustentar nem uma tarefa diária de US$ 1
O fracasso dos planos ilimitados
- Claude Code, da Anthropic, entre outros, testou um plano ilimitado de US$ 200/mês, otimização automática de tokens, uso do PC do usuário e várias outras medidas para cortar custos
- Mesmo assim, alguns power users chegaram perto de 10 bilhões de tokens por mês (o equivalente a 12.500 cópias de “Guerra e Paz”), porque usuários passaram a usar automação, tarefas repetitivas e loops para provocar um consumo explosivo de tokens
- O “uso de IA se desacopla do tempo humano e a API roda 24 horas por dia, disparando o consumo de tokens”
- Apesar da inovação de engenharia, no fim o plano foi revertido
- Conclusão: o modelo de assinatura ilimitada agora é inviável; a conta simplesmente não fecha
O dilema enfrentado por toda a indústria
- Se insistirem no modelo de assinatura, o risco de piora da rentabilidade e colapso só aumenta
- Todas as empresas de IA sabem que a única resposta é a cobrança por uso (usage-based pricing), mas, se surgir um concorrente baseado em assinatura, o risco de perda de usuários é alto
- Por causa dessa estrutura de “dilema do prisioneiro”, todos são empurrados para uma competição de subsídio a power users
- Cursor e Replit também seguem a lógica de “crescimento primeiro, rentabilidade é problema para depois”, mas no fim reestruturações por causa da rentabilidade serão inevitáveis
3 soluções realistas
- 1. Cobrança por uso
- Se um modelo econômico honesto for adotado desde o começo, dá para desenhar uma estrutura de receita que não fique abaixo do custo. No longo prazo, é o único modelo sustentável
- Porém, consumidores têm forte aversão a cobrança medida por consumo, o que limita as chances de sucesso em massa
- 2. Foco no mercado corporativo com alto custo de troca
- Ao vender via B2B para clientes enterprise com alto custo de troca (ex.: grandes empresas, instituições financeiras), uma vez dentro do mercado, cancelar se torna quase impossível e as margens são altas
- O campo de system of record (SOR, CRM/ERP/EHR etc.) é um caso representativo de sucesso (ex.: adoção para 40 mil engenheiros do Goldman Sachs)
- 3. Geração de valor adicional por integração vertical (Vertical Integration)
- Como a Replit, a inferência de LLM pode ser oferecida como um ‘produto-isca’ operando no prejuízo, enquanto a receita vem de vários serviços construídos em cima, como hosting, banco de dados, deploy e monitoramento
- A estrutura passa a aumentar o uso de IA para impulsionar o mercado de infraestrutura
- A queda do preço unitário dos tokens deve continuar, mas as expectativas dos usuários e o volume de uso também devem crescer exponencialmente
- Empresas que insistirem apenas na estratégia de assinatura + crescimento correm alto risco de acabar realizando um 'funeral de alto custo'
Resumo
- O otimismo de que “no ano que vem os tokens estarão 10x mais baratos” não basta para sustentar um negócio
- Usuários sempre exigem expectativas mais altas e maior volume de uso
- A fórmula evolução do modelo = explosão de uso = aumento de custo já está em vigor, e um negócio de IA sustentável precisa migrar para uma nova estrutura baseada em cobrança por uso, contratos com grandes empresas ou integração vertical
- Se a empresa quiser continuar existindo, será necessário um novo enfoque estrutural, como a estratégia de 'neocloud'
4 comentários
A dificuldade de fazer cache + a automação usando MCP podem realmente levar o uso ilimitado até um uso literalmente ilimitado. ..Como operadoras sem plano de dados ilimitado, algo como ~300 vezes por dia, ~2000 vezes por dia etc.. Parece que isso pode acabar caminhando para um modelo de cobrança como o das antigas mensagens de texto.
Assim como na internet, em que a quantidade em si é ilimitada (embora em alguns casos haja cobrança por uso), acho que seria bom adotar um modelo em que se limite a velocidade. Quanto à implementação, assim como já existem hoje formas de processamento em lote, dá para separar os recursos computacionais dos recursos que chegam ao usuário. No fim, se do ponto de vista do fornecedor isso garantir previsibilidade, e o usuário também puder ter um valor razoável e uma velocidade garantida, não seria uma situação em que todos saem ganhando? No caso de alguns usuários com uso excessivo, provavelmente seria preciso seguir por um caminho de alocar recursos dedicados por meio de contratos separados.
Comentários do Hacker News
Pelas citações do artigo, os consumidores dizem que odeiam cobrança por uso (tarifação medida) e preferem pagar a mais por um plano ilimitado a receber uma fatura surpreendente, mas na prática a questão é mais complexa. Na Amazon, muitas vezes, quando você acha que previu os custos, de repente vem uma conta alta. Isso acontece porque não existe uma forma de configurar algo como “desligue automaticamente se passar de X dólares por mês”. Esse tipo de estrutura de “surpresa net 30” sempre parece um custo previsível, mas no fim traz cobranças extras inesperadas. Ainda assim, a cobrança por uso pode ser um bom modelo se o usuário conseguir ver claramente o consumo e definir um limite máximo para evitar estourar o orçamento. Do ponto de vista das empresas de IA, bastaria oferecer coisas como um gráfico de barras de “tokens usados / total de tokens”, uso de tokens por resposta e quantidade estimada de respostas restantes antes de exceder o limite, para que o usuário consiga administrar o orçamento. O importante é nunca fazer cobranças repentinas. Mas as empresas preferem esconder essas informações de tokens e dólares, de forma parecida com sites de aposta que não ligam diretamente seus “corporate bucks” ao USD.
Acho que cobrança por uso faz sentido para serviços B2B de infraestrutura (AWS etc.). Conforme a empresa cresce, o uso da infraestrutura e a conta aumentam de forma proporcional, então isso é previsível, e infraestrutura, depois de configurada, quase não exige atenção. Mas em cenários em que a IA é usada como trabalho/ferramenta, a cobrança por uso vira um grande obstáculo. Nesses casos, ela acaba desincentivando o uso do produto, porque toda vez é preciso analisar o custo-benefício, o que gera um desgaste enorme. Se for usada no trabalho, talvez ainda seja necessário ficar pedindo aprovação do gestor o tempo todo. Uma ferramenta voltada a aumentar produtividade não deveria criar esse tipo de barreira. Quase ninguém vai parar 250 vezes para pensar “essa ação vale 3 dólares?”. Se for por uso, a pessoa simplesmente deixa de usar.
Me incomoda que as empresas tentem esconder a conversão de tokens para dólares. Estou testando o trial do agente do GitHub Copilot, e a cobrança é realmente muito opaca. Só aparece o termo “solicitações premium”, e no meu dashboard não consigo ver uso e limite em tempo real. Na UI, se você clica na parte que fala de solicitações premium, vai para a documentação, mas não mostra com clareza o limite real nem um dashboard de preços.
Na Amazon (AWS), o problema é ainda mais sério. Ao contrário da tentação do “é mais barato” da AWS, na prática, a migração só faz sentido se ela realmente for mais barata que a alternativa. Mesmo assim, muitas empresas não gastam tempo de desenvolvedor para trocar a infraestrutura. O custo de oportunidade é alto e há riscos (receita, tempo de desenvolvimento, concorrência etc.), então, se o retorno não for muito grande, isso é visto como desperdício de tempo de engenharia. Se a arquitetura de infraestrutura acabar ficando mais cara do que a alternativa, já era: como o tempo de desenvolvedor já foi gasto, só resta absorver o prejuízo. Ainda não sinto esse peso de migração/custo de oportunidade nas tarifas baseadas em tokens, porque é fácil voltar ao jeito antigo. Mas imagino que isso vá mudar no futuro.
A estrutura de preços da Amazon parece muito vaga e complexa. Por exemplo, às vezes não há como saber por que o custo do banco de dados fica variando o tempo todo.
Para processos bem definidos, a cobrança por uso é realmente útil. O que eu gosto na AWS é que ela permite alinhar o custo ao negócio real. Antigamente isso era difícil e gerava muita politicagem interna. Um vendedor ia direto ao executivo defender a necessidade de equipamento, e a empresa acabava assumindo até hardware de rede que nem queria. Mas, para o usuário, esse tipo de gestão minuciosa de custo não é bom, porque faz com que ele seja avaliado continuamente por métricas que não têm relação direta com produtividade. Quando fui estagiário nos anos 90, para aprovar uma ligação interurbana, eu tinha que passar por burocracia; quem aprovava avaliava se 20 minutos de conversa eram apropriados, e se eu passasse do limite, eu mesmo arcava com o custo. Não foi uma experiência divertida. Para IA voltada ao usuário, o certo é preço fixo. Se minha produtividade aumenta 20% e eu pago US$ 200 por mês no ChatGPT Pro, isso vale US$ 16 mil por ano. É um investimento extremamente barato.
As afirmações do artigo não me parecem lógicas. Não concordo com a ideia de que “quando sai o modelo mais recente, 99% da demanda migra imediatamente”. Na prática, o Sonnet 4 está sendo mais usado do que o Opus 4, e há muitos usuários que preferem modelos baratos e medianos, não o modelo de melhor desempenho. Por motivos como usabilidade, velocidade e familiaridade, vários modelos não-SOTA são usados em paralelo. Ranking de modelos: https://openrouter.ai/rankings. E o texto descreve a troca de Opus para Sonnet, ou para Haiku quando a carga aperta, como se fosse autoscaling, mas não acho que esse comportamento esteja embutido nos pesos do modelo. No geral, o texto parece apenas reproduzir problemas de precificação que já existiam na era do cloud hosting — muitos usuários preferem a conveniência de uma mensalidade fixa, mesmo com desempenho inferior, enquanto alguns usuários de API (heavy users/empresas) usam no modelo por consumo; essa estrutura já se provou bem lucrativa. A maioria das startups de IA é B2B, não B2C.
A história de que “o Claude Code originalmente oferecia US$ 200/mês ilimitados e depois voltou atrás” não é verdadeira. O nome do plano sempre foi plano 20x, e desde o início havia limites claros, como sessões de 5 horas e limite mensal de 50 sessões (mesmo que não fosse rigidamente aplicado). Eu também uso e quase nunca senti falta; na verdade, ainda acho que o limite é alto. Ou seja, dizer a verdade não prejudica em nada o argumento.
Na prática, o grande problema é que hoje estamos usando modelos indistintos para tudo, como matar mosquito com canhão: jogar um modelo generalista de máxima capacidade em qualquer problema. Nem todo problema precisa de um modelo SOTA. Conforme os serviços que usamos avançarem para um modelo de “bundle” com vários modelos, vamos ver curvas de uso muito mais eficientes.
Ainda não existe nenhum modelo em que eu confie plenamente para tarefas importantes. Até os melhores modelos às vezes se comportam de forma estranha. Meu cérebro sempre processa o trabalho por conta própria, então eu não preciso gastar energia mental pensando em delegar. Por isso, eu só delego para IA quando existe um “ganho garantido” muito claro. Minha própria capacidade vem primeiro. As empresas de IA anunciam o melhor desempenho, mas para o usuário a métrica importante é o “pior momento” da IA. É por isso que SOTA sempre tem demanda. A IA será julgada pelo seu “pior momento” — ela pode acertar mil vezes, mas um único erro pode ser fatal, assim como uma pessoa pode ser demitida pelo pior erro que comete. Não é o desempenho em casos perfeitos (ambiente de laboratório) que mais importa, e sim o que acontece quando ela falha no uso real. O texto mostra bem esse ponto.
Até agora, as tarefas mais difíceis ainda não foram resolvidas, e não há tantas tarefas em que dê para aceitar respostas de baixa precisão. Em alguns pipelines de texto isso pode funcionar, mas quase todo uso voltado ao usuário exige alta qualidade.
Muita gente ignora isso. Modelos GPU de 7b e 32b já funcionam bem o suficiente para muitas tarefas. E ainda rodam em hardware antigo. Ainda estamos na fase de hype em que o desempenho geral dos LLMs continua subindo; com o tempo, a melhora dos modelos grandes vai estagnar e as escolhas mais realistas vão começar.
Vale a pena experimentar vários modelos. Um sistema simples de chatbot que fiz recentemente usa 5 modelos diferentes dependendo da situação. Trocar e combinar modelos faz uma diferença enorme em custo, experiência do usuário e qualidade.
Se existisse uma opção em que o Claude Opus orientasse o Sonnet, eu usaria isso em quase toda conversa. Fazer isso manualmente é incômodo e quebra o fluxo, então no fim eu continuo usando só o Opus. Como o custo de entrada é baixo graças ao processamento paralelo, acho que prompts maiores não seriam um grande problema.
Gostaria que alguma empresa de IA criasse um sistema em que tarefas simples pudessem ser delegadas a um modelo mais “lerdo”. Trabalhos complexos exigem um modelo nível Opus, mas dentro deles há um monte de partes que poderiam ser feitas tranquilamente pelo Sonnet 3.5. O Opus poderia distinguir o que é simples e o que é difícil, e distribuir as partes fáceis entre várias instâncias do Sonnet 3.5. A ideia parece tão óbvia que imagino que todo mundo já esteja construindo isso.
O Claude Code de fato usa automaticamente Sonnet e Haiku. Ao fim da sessão, ele mostra estatísticas como tokens, custo etc. Imagino que também exista alguma forma de consultar essas informações durante a sessão.
Por exemplo, talvez desse para fazer o prompt gerar, para cada subtarefa, uma “classificação de nível de modelo recomendado” de 1 a 10.
Nos últimos 1–2 anos, eu venho pagando diretamente por API e usando frontends open source (LibreChat etc.) para acessar vários modelos. Para uso ocasional, isso funcionava muito bem: bastava recarregar uns US$ 10 a cada poucos meses. Como meu consumo de tokens era muito menor do que o da maioria dos planos em pacote, concluí que esse modelo era muito mais barato para mim. Mas, quando comecei a testar várias ferramentas como Claude Code, os tokens passaram a acabar visivelmente mais rápido. Ontem gastei US$ 5 em tokens em apenas 15 minutos. Eu sei que ferramentas de código funcionam de forma muito diferente de simplesmente fazer perguntas a um LLM, mas não imaginava que a diferença seria tão grande assim. Fiquei ainda mais surpreso porque boa parte desse consumo de tokens fica escondida da vista (oculta em contextos cada vez maiores ou na orquestração de ferramentas).
Isso acontece porque o Claude Code usa um contexto muito mais amplo e muito mais processamento iterativo do que o habitual.
Usei uma API do Deepseek por quase um ano inteiro com US$ 20 (não me importo que seja uma empresa chinesa). A velocidade é lenta, mas, entre os modelos Deepseek com hospedagem independente, achei que a qualidade era até melhor (na minha experiência). Não uso nada do tipo agente.
Discordo da afirmação de que “99% da demanda sempre se concentra no modelo de ponta”. A verdadeira fronteira não está só em “capacidade”, mas em “capacidade em relação ao preço”. O modelo topo de linha não fica com 99% da fatia; na verdade, é o contrário. Pelas estatísticas do OpenRouter, o Claude Opus 4 tem participação em torno de 1%, enquanto o mais popular é o Sonnet 4, usado por 18% dos assinantes. Além disso, Gemini Flash 2.0 e 2.5, que são mais baratos, também têm bastante uso. Eles custam menos que o Sonnet 4.
Em São Francisco, por que não usam maiúsculas nem pontuação? E por que o pessoal do Vale do Silício é tão obcecado por crescimento exponencial de mentirinha? Na verdade, me parece mais claro que o avanço da IA não está acontecendo de forma realmente exponencial, e sim porque a quantidade de recursos investidos hoje é absurdamente maior do que alguns anos atrás.
Fico pensando se esse estilo de escrita peculiar serve para mostrar que o texto não foi escrito por um LLM.
Não consegue lidar com a língua mudando naturalmente?/brincadeira Talvez eu tenha mesmo que voltar a viver do jeito antigo.
Se você for ao Tenderloin ou à Mission Street, em São Francisco, dá para levar tiro sem usar maiúsculas nem pontuação? (brincadeira)
O texto deixa passar a “dança das cadeiras” do processo de ocupação de mercado. Como no caso da Uber, quando se usa capital de risco para conquistar participação e se aceita operar no vermelho por anos, uma vez que a marca se fixa na cabeça do cliente, depois disso ela não é tão facilmente abalada nem por concorrentes mais novos e mais baratos. O negócio se estabelece, e mesmo depois do IPO consegue manter uma cotação sólida (ainda que não extraordinária) por um bom tempo.
O texto pinta a situação como se ninguém pagasse preços por consumo, mas na realidade os clientes de API (ou seja, praticamente todos os clientes empresariais) já pagam nesse modelo.
"Estou curioso para saber por que em São Francisco não usam maiúsculas nem pontuação"
Fui ler o texto e realmente é isso mesmo. O curioso é que em algumas frases usam ponto final, e em outras não, fica tudo misturado — qual será o motivo? Será que alguém sabe? Fiquei curioso 🤔