13 pontos por GN⁺ 2025-08-04 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Ao contrário da expectativa de que o custo dos tokens de LLM cairia 10x por ano, os serviços de assinatura de IA estão vendo sua rentabilidade piorar cada vez mais
  • A demanda pelos modelos LLM mais recentes está sempre concentrada nos modelos de ponta (SOTA, State-of-the-art), então a queda de preço dos modelos “antigos” não se traduz em redução real de custos
  • Quanto melhor o desempenho do modelo, maior o volume de tokens consumidos de forma exponencial, anulando a queda do preço unitário e fazendo o custo total disparar
  • Experimentos com planos de assinatura ilimitados (ex.: Claude Code US$ 200/mês) também são insustentáveis por causa da explosão de uso de tokens por heavy users
  • No longo prazo, não há modelo sustentável além da cobrança por uso, mas a estrutura competitiva entre startups e a resistência dos consumidores dificultam sua adoção na prática
  • Sem migrar para um modelo de receita sustentável, a maioria das startups acabará enfrentando risco de falência

Negócio de assinaturas de IA: por que o prejuízo só aumenta mesmo com a queda do preço unitário dos tokens

A ilusão da queda no preço dos LLMs

  • Fundadores acreditaram no playbook de VC de que “como o preço unitário do token cai 10x, basta aguentar um pouco que o negócio vira uma máquina de alta margem”, e por isso operaram produtos por assinatura no custo ou até no prejuízo no começo
  • De fato, o preço por token de modelos antigos, como o GPT-3.5, caiu mais de 10x, mas a demanda dos usuários e do mercado continua sempre concentrada nos modelos mais novos e de melhor desempenho (SOTA)
  • Na prática, passados 18 meses, a margem não melhorou — na verdade, piorou
  • A redução de preço de modelos antigos só é perceptível em casos que já perderam o interesse do mercado, como “jornal de ontem”

Estrutura de preços e demanda dos modelos mais recentes

  • Modelos recentes como GPT-4 e Claude 3 Opus sempre são lançados com preço alto semelhante, e por mais baratos que fiquem os modelos antigos, o uso real deles é mínimo
  • Usuários querem apenas o “melhor desempenho”, e o “modelo antigo barato” não passa, no mercado, de um carro usado velho
  • O que realmente se busca ao usar IA é o melhor resultado, então é raro ver alguém escolher espontaneamente um modelo antigo para economizar
  • No fim, para manter competitividade no mercado, é preciso oferecer sempre o modelo mais novo e mais caro, o que mantém o custo elevado
    • É como quando o preço de carros usados dos anos 90 cai, mas os consumidores continuam comprando carros novos

O aumento explosivo do uso de tokens

  • Conforme o desempenho dos modelos melhora, surge o fenômeno de um único trabalho consumir uma quantidade de tokens que cresce exponencialmente
  • No passado, uma tarefa podia terminar com 1.000 tokens; agora, pode consumir 100.000 tokens
  • Antes, uma pergunta de uma frase recebia uma resposta de uma frase, mas hoje há pesquisas complexas, loops e orquestrações que rodam continuamente por 10 a 20 minutos, consumindo enormes volumes de tokens
  • À medida que se pede à IA pesquisas/análises mais profundas, surgem casos como “20 minutos por execução, 24 horas por dia”, o que faz o uso médio diário por usuário disparar
    • Por exemplo, se alguém usar apenas 1 vez por dia um 'deep research' que custa US$ 1, uma assinatura de US$ 20 já não fecha a conta
  • A queda do preço unitário é compensada pelo aumento do consumo total de tokens, e chega-se ao ponto em que um plano de US$ 20/mês não consegue sustentar nem uma tarefa diária de US$ 1

O fracasso dos planos ilimitados

  • Claude Code, da Anthropic, entre outros, testou um plano ilimitado de US$ 200/mês, otimização automática de tokens, uso do PC do usuário e várias outras medidas para cortar custos
  • Mesmo assim, alguns power users chegaram perto de 10 bilhões de tokens por mês (o equivalente a 12.500 cópias de “Guerra e Paz”), porque usuários passaram a usar automação, tarefas repetitivas e loops para provocar um consumo explosivo de tokens
    • O “uso de IA se desacopla do tempo humano e a API roda 24 horas por dia, disparando o consumo de tokens”
  • Apesar da inovação de engenharia, no fim o plano foi revertido
  • Conclusão: o modelo de assinatura ilimitada agora é inviável; a conta simplesmente não fecha

O dilema enfrentado por toda a indústria

  • Se insistirem no modelo de assinatura, o risco de piora da rentabilidade e colapso só aumenta
  • Todas as empresas de IA sabem que a única resposta é a cobrança por uso (usage-based pricing), mas, se surgir um concorrente baseado em assinatura, o risco de perda de usuários é alto
  • Por causa dessa estrutura de “dilema do prisioneiro”, todos são empurrados para uma competição de subsídio a power users
  • Cursor e Replit também seguem a lógica de “crescimento primeiro, rentabilidade é problema para depois”, mas no fim reestruturações por causa da rentabilidade serão inevitáveis

3 soluções realistas

  • 1. Cobrança por uso
    • Se um modelo econômico honesto for adotado desde o começo, dá para desenhar uma estrutura de receita que não fique abaixo do custo. No longo prazo, é o único modelo sustentável
    • Porém, consumidores têm forte aversão a cobrança medida por consumo, o que limita as chances de sucesso em massa
  • 2. Foco no mercado corporativo com alto custo de troca
    • Ao vender via B2B para clientes enterprise com alto custo de troca (ex.: grandes empresas, instituições financeiras), uma vez dentro do mercado, cancelar se torna quase impossível e as margens são altas
    • O campo de system of record (SOR, CRM/ERP/EHR etc.) é um caso representativo de sucesso (ex.: adoção para 40 mil engenheiros do Goldman Sachs)
  • 3. Geração de valor adicional por integração vertical (Vertical Integration)
    • Como a Replit, a inferência de LLM pode ser oferecida como um ‘produto-isca’ operando no prejuízo, enquanto a receita vem de vários serviços construídos em cima, como hosting, banco de dados, deploy e monitoramento
    • A estrutura passa a aumentar o uso de IA para impulsionar o mercado de infraestrutura
  • A queda do preço unitário dos tokens deve continuar, mas as expectativas dos usuários e o volume de uso também devem crescer exponencialmente
  • Empresas que insistirem apenas na estratégia de assinatura + crescimento correm alto risco de acabar realizando um 'funeral de alto custo'

Resumo

  • O otimismo de que “no ano que vem os tokens estarão 10x mais baratos” não basta para sustentar um negócio
    • Usuários sempre exigem expectativas mais altas e maior volume de uso
  • A fórmula evolução do modelo = explosão de uso = aumento de custo já está em vigor, e um negócio de IA sustentável precisa migrar para uma nova estrutura baseada em cobrança por uso, contratos com grandes empresas ou integração vertical
    • Se a empresa quiser continuar existindo, será necessário um novo enfoque estrutural, como a estratégia de 'neocloud'

Ainda não há comentários.

Ainda não há comentários.