- Ao contrário da expectativa de que o custo dos tokens de LLM cairia 10x por ano, os serviços de assinatura de IA estão vendo sua rentabilidade piorar cada vez mais
- A demanda pelos modelos LLM mais recentes está sempre concentrada nos modelos de ponta (SOTA, State-of-the-art), então a queda de preço dos modelos “antigos” não se traduz em redução real de custos
- Quanto melhor o desempenho do modelo, maior o volume de tokens consumidos de forma exponencial, anulando a queda do preço unitário e fazendo o custo total disparar
- Experimentos com planos de assinatura ilimitados (ex.: Claude Code US$ 200/mês) também são insustentáveis por causa da explosão de uso de tokens por heavy users
- No longo prazo, não há modelo sustentável além da cobrança por uso, mas a estrutura competitiva entre startups e a resistência dos consumidores dificultam sua adoção na prática
- Sem migrar para um modelo de receita sustentável, a maioria das startups acabará enfrentando risco de falência
Negócio de assinaturas de IA: por que o prejuízo só aumenta mesmo com a queda do preço unitário dos tokens
A ilusão da queda no preço dos LLMs
- Fundadores acreditaram no playbook de VC de que “como o preço unitário do token cai 10x, basta aguentar um pouco que o negócio vira uma máquina de alta margem”, e por isso operaram produtos por assinatura no custo ou até no prejuízo no começo
- De fato, o preço por token de modelos antigos, como o GPT-3.5, caiu mais de 10x, mas a demanda dos usuários e do mercado continua sempre concentrada nos modelos mais novos e de melhor desempenho (SOTA)
- Na prática, passados 18 meses, a margem não melhorou — na verdade, piorou
- A redução de preço de modelos antigos só é perceptível em casos que já perderam o interesse do mercado, como “jornal de ontem”
Estrutura de preços e demanda dos modelos mais recentes
- Modelos recentes como GPT-4 e Claude 3 Opus sempre são lançados com preço alto semelhante, e por mais baratos que fiquem os modelos antigos, o uso real deles é mínimo
- Usuários querem apenas o “melhor desempenho”, e o “modelo antigo barato” não passa, no mercado, de um carro usado velho
- O que realmente se busca ao usar IA é o melhor resultado, então é raro ver alguém escolher espontaneamente um modelo antigo para economizar
- No fim, para manter competitividade no mercado, é preciso oferecer sempre o modelo mais novo e mais caro, o que mantém o custo elevado
- É como quando o preço de carros usados dos anos 90 cai, mas os consumidores continuam comprando carros novos
O aumento explosivo do uso de tokens
- Conforme o desempenho dos modelos melhora, surge o fenômeno de um único trabalho consumir uma quantidade de tokens que cresce exponencialmente
- No passado, uma tarefa podia terminar com 1.000 tokens; agora, pode consumir 100.000 tokens
- Antes, uma pergunta de uma frase recebia uma resposta de uma frase, mas hoje há pesquisas complexas, loops e orquestrações que rodam continuamente por 10 a 20 minutos, consumindo enormes volumes de tokens
- À medida que se pede à IA pesquisas/análises mais profundas, surgem casos como “20 minutos por execução, 24 horas por dia”, o que faz o uso médio diário por usuário disparar
- Por exemplo, se alguém usar apenas 1 vez por dia um 'deep research' que custa US$ 1, uma assinatura de US$ 20 já não fecha a conta
- A queda do preço unitário é compensada pelo aumento do consumo total de tokens, e chega-se ao ponto em que um plano de US$ 20/mês não consegue sustentar nem uma tarefa diária de US$ 1
O fracasso dos planos ilimitados
- Claude Code, da Anthropic, entre outros, testou um plano ilimitado de US$ 200/mês, otimização automática de tokens, uso do PC do usuário e várias outras medidas para cortar custos
- Mesmo assim, alguns power users chegaram perto de 10 bilhões de tokens por mês (o equivalente a 12.500 cópias de “Guerra e Paz”), porque usuários passaram a usar automação, tarefas repetitivas e loops para provocar um consumo explosivo de tokens
- O “uso de IA se desacopla do tempo humano e a API roda 24 horas por dia, disparando o consumo de tokens”
- Apesar da inovação de engenharia, no fim o plano foi revertido
- Conclusão: o modelo de assinatura ilimitada agora é inviável; a conta simplesmente não fecha
O dilema enfrentado por toda a indústria
- Se insistirem no modelo de assinatura, o risco de piora da rentabilidade e colapso só aumenta
- Todas as empresas de IA sabem que a única resposta é a cobrança por uso (usage-based pricing), mas, se surgir um concorrente baseado em assinatura, o risco de perda de usuários é alto
- Por causa dessa estrutura de “dilema do prisioneiro”, todos são empurrados para uma competição de subsídio a power users
- Cursor e Replit também seguem a lógica de “crescimento primeiro, rentabilidade é problema para depois”, mas no fim reestruturações por causa da rentabilidade serão inevitáveis
3 soluções realistas
- 1. Cobrança por uso
- Se um modelo econômico honesto for adotado desde o começo, dá para desenhar uma estrutura de receita que não fique abaixo do custo. No longo prazo, é o único modelo sustentável
- Porém, consumidores têm forte aversão a cobrança medida por consumo, o que limita as chances de sucesso em massa
- 2. Foco no mercado corporativo com alto custo de troca
- Ao vender via B2B para clientes enterprise com alto custo de troca (ex.: grandes empresas, instituições financeiras), uma vez dentro do mercado, cancelar se torna quase impossível e as margens são altas
- O campo de system of record (SOR, CRM/ERP/EHR etc.) é um caso representativo de sucesso (ex.: adoção para 40 mil engenheiros do Goldman Sachs)
- 3. Geração de valor adicional por integração vertical (Vertical Integration)
- Como a Replit, a inferência de LLM pode ser oferecida como um ‘produto-isca’ operando no prejuízo, enquanto a receita vem de vários serviços construídos em cima, como hosting, banco de dados, deploy e monitoramento
- A estrutura passa a aumentar o uso de IA para impulsionar o mercado de infraestrutura
- A queda do preço unitário dos tokens deve continuar, mas as expectativas dos usuários e o volume de uso também devem crescer exponencialmente
- Empresas que insistirem apenas na estratégia de assinatura + crescimento correm alto risco de acabar realizando um 'funeral de alto custo'
Resumo
- O otimismo de que “no ano que vem os tokens estarão 10x mais baratos” não basta para sustentar um negócio
- Usuários sempre exigem expectativas mais altas e maior volume de uso
- A fórmula evolução do modelo = explosão de uso = aumento de custo já está em vigor, e um negócio de IA sustentável precisa migrar para uma nova estrutura baseada em cobrança por uso, contratos com grandes empresas ou integração vertical
- Se a empresa quiser continuar existindo, será necessário um novo enfoque estrutural, como a estratégia de 'neocloud'
Ainda não há comentários.