LLMs são realmente baratos

(snellman.net)

26 pontos por GN⁺ 2025-06-10 | 4 comentários | Compartilhar no WhatsApp

A maioria das pessoas tende a superestimar o custo de usar LLMs (modelos de linguagem de grande porte), mas na prática eles estão ficando baratos rapidamente, a ponto de já custarem menos do que buscas na web
- No início da febre da IA generativa, o custo de inferência era alto, mas nos últimos 2 anos o custo caiu quase 1000 vezes
Ao comparar diretamente o preço real de APIs de LLM com APIs de busca na web, modelos de LLM de baixo custo chegam a ser mais de 10 vezes mais baratos do que a API de busca mais barata, e até modelos de faixa intermediária têm uma estrutura de preços bastante competitiva
Há pouca evidência de que as operadoras de modelos estejam subsidiando excessivamente os preços das APIs, e em alguns casos elas chegam a registrar margens altas, de até 80% com base no custo de GPU
O motivo de grandes empresas de IA, como a OpenAI, operarem no vermelho não é o custo, mas sim políticas fracas de monetização, e a estrutura é tal que seria possível passar ao lucro cobrando apenas US$ 1 por mês por usuário
No futuro, o centro do peso dos custos deve migrar do próprio LLM para serviços externos de backend (por exemplo, diversos provedores de dados). Executar LLMs está ficando cada vez mais barato, e o modelo de negócio também é plenamente viável

O equívoco sobre o custo dos LLMs e a realidade

Muitas pessoas entendem errado que o custo de operar LLMs como o ChatGPT é muito alto
Por causa disso, repetem-se análises equivocadas de que a viabilidade de negócios das empresas de IA é incerta, ou de que isso prejudica a monetização de serviços de IA para consumidores
A ideia de que LLMs ainda são caros é um erro de percepção
- No início do boom da IA, o custo de inferência era muito alto, mas nos últimos 2 anos caiu quase 1000 vezes
- Muitas discussões fazem previsões erradas com base em estruturas de custo do passado
O "modelo de preço por 1 milhão de tokens" usado com frequência não é intuitivo de entender

Comparação de preços entre APIs de busca na web e APIs de LLM

Tarifas de APIs de busca na web representativas
- Google Search: $35/1000 consultas
- Bing Search: $15/1000 consultas
- Brave Search: $5~9/1000 consultas, com uma estrutura em que o preço sobe conforme o volume aumenta
- No geral, APIs de busca na web não são baratas, e as de melhor qualidade são mais caras
Tarifas de APIs de LLM (base de 1k tokens)
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00 etc.
- É preciso calcular o custo de LLM de forma comparável à busca: quantidade de tokens gerados por consulta + preço por token
- 500~1000 tokens é o consumo médio por consulta, permitindo comparação direta
Modelos de LLM baratos são de 10 a 25 vezes mais baratos do que a API de busca mais barata
- Mesmo LLMs de qualidade intermediária custam bem menos do que buscas na mesma faixa
- Ficam ainda mais baratos quando se consideram condições adicionais como lotes e descontos fora do horário de pico

O verdadeiro motivo de o custo ser baixo

A suspeita de subsídio nos preços de API por parte dos provedores de modelo tem pouca base
- Também há pouco incentivo para expandir participação de mercado via API, e os preços de APIs oferecidas por várias empresas concorrentes também se formam de maneira competitiva
- Segundo dados medidos da Deepseek, a margem com base em GPU chega a 80%
Custos de treinamento (Training) e inferência (Inference)
- O custo de treinamento está sendo efetivamente amortizado pelo grande volume de tráfego de inferência
- Em vez disso, os custos gerados pelo uso de serviços de backend de terceiros podem acabar ganhando destaque como problema

Contestando a afirmação de que “API de LLM deve dar prejuízo”

O prejuízo de grandes operadores como a OpenAI é resultado de estratégias de monetização fracas
- Só monetizar na faixa de US$ 1 por mês já poderia viabilizar a virada para o lucro
- Também existe o objetivo de coletar dados aproveitando o tráfego de usuários gratuitos
O verdadeiro problema de custo no futuro não será o LLM, mas o backend externo
- Ex.: quando um agente de IA chamar APIs externas para reservar ingressos, o peso real do custo pode recair sobre terceiros
- Prestadores de serviço devem reagir com bloqueio de crawling, migração para mobile, reforço de login etc.

Por que isso importa

Muitas previsões sobre o futuro estão sendo feitas com base na premissa errada de que LLMs são caros
Na prática, queda de custo e aumento de demanda estão ocorrendo ao mesmo tempo, e espera-se que os preços caiam ainda mais com maior dinamização do mercado
Empresas de Frontier AI priorizam conquistar mercado antes da monetização, e de fato o preço de serviços de LLM é especialmente baixo
O verdadeiro problema de custo não está no LLM em si, mas nos serviços externos integrados de retaguarda (por exemplo, sites de venda de ingressos)
Em uma estrutura em que esses serviços externos não conseguem capturar receita, pode surgir no futuro um novo modelo de monetização ou um conflito técnico entre IA e serviços de backend

Conclusão e perspectivas

O custo de inferência dos LLMs em si já não é mais uma limitação essencial para negócios de IA
- Com baixo custo de execução e várias opções de monetização (por exemplo, publicidade, assinatura etc.), há viabilidade comercial suficiente
- Daqui para frente, o principal desafio não será o LLM, mas sim os custos e a infraestrutura das fontes externas de dados usadas pela IA
É necessário adotar uma percepção realista de custos e uma mudança de estratégia de negócios alinhadas às mudanças de mercado e tecnologia

4 comentários

click 2025-06-12

Quando simulei cenários de uso on-prem com placas de vídeo próprias ou de aluguel de GPU na nuvem, achei que seria caríssimo.
Mas, ao atingir economia de escala, parece que fica bem viável.

ethanhur 2025-06-11

Eu estava em dúvida se daria para monetizar com LLM, então fico surpreso que a perspectiva seja positiva.

mhj5730 2025-06-11

Resultado de uma pesquisa surpreendente, mais impactante do que eu imaginava... O custo de usar modelos nos quais foram investidas dezenas de trilhões de wons é baixo, e ainda por cima parece estar em um nível em que dá para monetizar bem mesmo com esse custo...

GN⁺ 2025-06-10

Comentários do Hacker News

Acho que não é correto comparar uma API de busca lucrativa com uma API de LLM em nuvem que está tentando ganhar participação de mercado mesmo operando no prejuízo
Os dados atuais refletem uma situação em que as empresas estão fazendo investimentos enormes em infraestrutura (capex) para disputar a liderança em IA, mas ainda não chegaram ao estágio de lucratividade
Os dois produtos estão em níveis de maturidade completamente diferentes, e não dá para ignorar a realidade de que não faz sentido continuar justificando prejuízos em um serviço de 10 anos cujo uso está caindo
Além disso, consultas de busca podem ser atendidas com CPU e alta taxa de acerto de cache, enquanto inferência de LLM normalmente exige GPU, e como a saída de cada token é grande, é difícil compartilhar cache entre usuários
- Dizem que não há prova de que serviços de inference não sejam lucrativos, mas a posição aqui é que basta pagar diretamente pelo custo de inference em provedores de hospedagem como a AWS para perceber isso
  A AWS não vai subsidiar indefinidamente um serviço que executa modelos de terceiros, e o ponto mais importante é que investimento em infraestrutura é capex, mas o custo de rodar a inferência é opex (despesa operacional)
- Hoje em dia, provedores de API que hospedam modelos open source estão deixando uma margem bem grande entre a tarifa da API e o custo real do hardware de inference
  Claro que isso não é tudo, mas considerando até otimizações próprias de inferência, a margem pode ser ainda maior
  Mesmo provedores de modelos fechados, como OpenAI e Anthropic, se estimarmos com base nas especificações públicas dos modelos, a crença é que a Anthropic tem uma margem muito boa entre a tarifa da API e o custo de hardware
  Se você já rodou esses modelos em produção, acha que dá para verificar isso diretamente
- Há indícios de que a Perplexity manipulou a contabilidade ao mover COGS para P&D para parecer ter margens melhores
  Link
- Segundo uma análise do serviço de API da DeepSeek, eles não só estariam registrando margem de 500%, como também oferecendo o mesmo modelo a preços muito mais baixos que empresas americanas que prestam o mesmo serviço
  A visão é que OpenAI e Anthropic também podem perfeitamente estar obtendo margens ainda maiores
  GPUs em geral têm desempenho melhor tanto em custo quanto em eficiência energética do que CPUs, e a Anthropic usa cache de KV-cache em prompts de sistema de 24k tokens
- Não concordo com a ideia de que APIs de LLM sejam uma estratégia para tomar mercado operando no prejuízo
  Hoje existem serviços como o OpenRouter, em que dá para trocar livremente de modelo ou provedor, então não há efeito de lock-in e a estratégia de conquistar participação de mercado perde sentido econômico
  Em um produto com interface, como o ChatGPT na web, até faz sentido, mas vender API no prejuízo seria uma burrice
  Acha até que VCs também não aceitariam que uma API fosse vendida dando prejuízo
Acho que comparar mecanismo de busca com LLM assumindo uso apenas para busca factual simples (por exemplo, "qual é a capital dos EUA?") é uma analogia muito distante dos principais casos de uso de ambos os serviços
Se alguém usa um mecanismo de busca, o foco seria acessar o índice da web, e obter uma resposta simples é uma função da UI/do produto, não o objetivo da API
Ao usar um LLM, a aplicação tende a ser análise de grandes volumes de dados, reconhecimento de imagem, raciocínio complexo, programação etc., e nesse caso o uso de tokens é muito maior do que em uma simples resposta de busca
O argumento do autor parece uma comparação errada do tipo "um Honda Civic é barato porque custa parecido com maçãs por libra"
- Parece que o modelo tradicional de mecanismo de busca está ficando cada vez menos útil
  Especialistas usam cada vez menos mecanismos de busca, e usuários comuns também os utilizam menos para explorar índices da web e mais de forma conversacional, como se estivessem perguntando a uma pessoa
  Consultas como "qual é a capital dos EUA?", com partes desnecessárias, são na verdade mais adequadas para LLM do que para mecanismos de busca,
  e a queda de qualidade da busca por causa de sites de spam de SEO também é um grande problema
  LLMs lidam melhor com perguntas naturais e selecionam só a resposta desejada, sem explicações inúteis, spam ou anúncios, então a visão é que eles serão cada vez mais úteis
- Não concorda com a observação do autor de que a comparação entre busca e LLM se manteria apenas em perguntas factuais simples, mas o ponto central da análise não é exatamente “comparar mecanismo de busca com LLM”, e sim comparar diferença entre preço e custo por unidade (token/consulta) para calcular margem
  Para discutir se a API é ou não sustentada por subsídio, talvez nem seja necessário compará-la com mecanismo de busca
- Concorda que LLMs são usados para análise de grandes volumes de dados e usos mais complexos, mas reconhece que isso corresponde a usuários avançados
- Acha válido o ponto de que mecanismo de busca serve para encontrar o índice da web
  Mas entende também que LLM pode encontrar a informação desejada com mais precisão, sem duplicação e mais rapidamente, então não dá para dizer que a busca tradicional é sempre melhor
  Se o LLM der uma resposta direta e até anexar links para facilitar a verificação do resultado, a satisfação do usuário pode até ser maior
  A opinião é que o motivo de o Google continuar escondendo resultados de busca é justamente o fato de resultados baseados em índice estarem se tornando menos úteis
- Há também o argumento de que a OpenAI não teve um prejuízo tão grande em 2024 e que, considerando visitas/uso mensal, o custo de inference talvez não seja tão alto na prática
  Levando em conta que o ChatGPT é um dos sites mais visitados do mundo todos os meses, e que a maior parte do tráfego é uso gratuito, o custo real pode ser menor do que parece
Levanta-se a dúvida de que a base para estimar custos relacionados a LLM não está clara
Por exemplo, fatos atuais como tamanho permitido de bagagem em avião são mais confiáveis se o LLM consultar fontes com busca na web
Nesse caso, o consumo de tokens pode aumentar rapidamente e fazer a estimativa de custo errar,
e quando há várias rodadas de conversa acumulando contexto, o total de tokens usados cresce de forma explosiva
Reconhece-se que é difícil estimar custo sem dados reais de uso
- Eu pergunto ao LLM sobre novidades recentes, e o LLM lê diretamente várias páginas da web, resume e orienta
  Quando faço perguntas sobre assuntos atuais, ele sempre faz busca na web e inclui links de referência, então acho que esse tipo de uso é viável
- Perguntei “qual é o tamanho permitido para bagagem de mão na rota DFW-CDG de uma companhia aérea americana”, e ele respondeu corretamente usando busca na web, incluindo o site oficial e links da FAA
  Acho esse tipo de uso eficiente
Considerando a dificuldade de obter semicondutores, além do alto custo de energia e equipamentos, não acha que os grandes players consigam lucrar agora com serviços de LLM baseados em API sem melhorar a rentabilidade
Enquanto o preço do hardware e a questão energética não forem resolvidos, será difícil gerar grandes lucros por algum tempo
O exemplo citado é o YouTube: mesmo após 20 anos de operação, a Alphabet não divulga claramente se ele é lucrativo
- A grande lucratividade da Alphabet (Google) vem da participação esmagadora no mercado de busca e da receita publicitária
  A aposta é que empresas de IA também poderão algum dia converter participação de mercado em receita
  Se houver stickiness, a conversão de participação de mercado em lucro também pode ser bastante viável
- Diz-se que a alta da ação pode, em certo sentido, ser um critério de rentabilidade corporativa,
  mencionando que a Amazon usou estratégia parecida por mais de 10 anos
A lógica de que, com prejuízo de US$ 500 milhões e 500 milhões de MAU em 2024, a OpenAI poderia atingir o ponto de equilíbrio “bastando” converter 500 milhões de usuários gratuitos em ARPU anual de US$ 10 é, na prática, uma conta difícil de realizar
Se cobrar até US$ 1 dos usuários gratuitos, a maioria provavelmente vai embora,
e a palavra “bastando” simplifica demais a realidade
- Na verdade, a ideia não é cobrar US$ 1/mês para converter usuários, e sim que rodar LLM hoje ficou tão barato que até um modelo baseado em anúncios poderia gerar lucro suficiente
  Comparado com serviços baseados em anúncios na mesma escala de usuários, o custo atual de LLM é muito menor, e assinatura não é a única resposta
- Converter 500 milhões de pessoas em usuários pagos pode, ao contrário, mudar completamente o padrão de uso do serviço e o custo, fazendo as despesas explodirem
  Uma suposição simples seria que, se só 1% virar pagante, isso já renderia US$ 1 bilhão por ano
- Eu acho que esses serviços operam no prejuízo porque o valor dos dados dos usuários é muito maior que a receita de assinatura
- Na prática, nem todo mundo precisa virar assinante pago; basta criar uma estrutura em que alguns usuários pagos subsidiem o restante
Com o tempo, depois da concentração de participação de mercado e da regulação, os investidores provavelmente verão a concretização do aumento de preços prometido
- Ou então a monetização via anúncios também tem grande chance de acontecer
  Não importa a pergunta, uma propaganda da Coca-Cola apareceria no meio da resposta,
  projetos de código com IA receberiam anúncios automáticos,
  e a cada décimo e-mail enviado pela IA entraria um anúncio de seguro,
  ou seja, existem oportunidades infinitas de monetização
Ao estimar internamente o custo de operar LLM com foco no consumo de energia, chegou-se a algo na faixa de pouco mais de US$ 10 por 1 milhão de tokens, mesmo com requisições em rajada dos usuários internos
Como a carga no servidor não era alta, em escala maior o custo ainda poderia cair bastante
- Pergunta-se se esse cálculo foi feito com base apenas no consumo de energia
Há dúvida sobre se 1 resposta em tokens de um LLM e 1 resultado de busca de um mecanismo de busca podem mesmo ser comparados de forma equivalente
O autor compara 1.000 chamadas de LLM (cerca de 1 milhão de tokens) com 1.000 consultas de busca,
mas parece haver um possível erro de ordem de grandeza de até 1.000 vezes
(Correção posterior: ao ver o método do autor, confirmou-se diretamente que a comparação era de fato por preço de 1.000 usos de API, então era um mal-entendido)
- Corrige-se que o autor realmente comparou custo unitário entre 1.000 usos de LLM (total de 1 milhão de tokens) e 1.000 usos de busca
- Se o Gemini 2.0 Flash custa US$ 0,4 por 1 milhão de tokens e a Bing Search API custa US$ 15 por 1.000 consultas, então o lado do LLM sai 37 vezes mais barato
Se de fato se espera melhoria de eficiência e redução de custo em 100 vezes no futuro, fica a dúvida de por que estão expandindo tanto os data centers agora
Talvez bastasse aproveitar os data centers existentes no próximo ciclo de upgrade das máquinas,
e também se menciona a possibilidade de o atual frenesi de investimento ser uma bolha de fato
Compartilha-se um artigo relacionado de comparação de desempenho
Link
A impressão é que, olhando só o preço efetivo, continua caro,
e em uma situação de competição extrema por participação de mercado, não dá para interpretar os números isoladamente