- A maioria das pessoas tende a superestimar o custo de usar LLMs (modelos de linguagem de grande porte), mas na prática eles estão ficando baratos rapidamente, a ponto de já custarem menos do que buscas na web
- No início da febre da IA generativa, o custo de inferência era alto, mas nos últimos 2 anos o custo caiu quase 1000 vezes
- Ao comparar diretamente o preço real de APIs de LLM com APIs de busca na web, modelos de LLM de baixo custo chegam a ser mais de 10 vezes mais baratos do que a API de busca mais barata, e até modelos de faixa intermediária têm uma estrutura de preços bastante competitiva
- Há pouca evidência de que as operadoras de modelos estejam subsidiando excessivamente os preços das APIs, e em alguns casos elas chegam a registrar margens altas, de até 80% com base no custo de GPU
- O motivo de grandes empresas de IA, como a OpenAI, operarem no vermelho não é o custo, mas sim políticas fracas de monetização, e a estrutura é tal que seria possível passar ao lucro cobrando apenas US$ 1 por mês por usuário
- No futuro, o centro do peso dos custos deve migrar do próprio LLM para serviços externos de backend (por exemplo, diversos provedores de dados). Executar LLMs está ficando cada vez mais barato, e o modelo de negócio também é plenamente viável
O equívoco sobre o custo dos LLMs e a realidade
- Muitas pessoas entendem errado que o custo de operar LLMs como o ChatGPT é muito alto
- Por causa disso, repetem-se análises equivocadas de que a viabilidade de negócios das empresas de IA é incerta, ou de que isso prejudica a monetização de serviços de IA para consumidores
- A ideia de que LLMs ainda são caros é um erro de percepção
- No início do boom da IA, o custo de inferência era muito alto, mas nos últimos 2 anos caiu quase 1000 vezes
- Muitas discussões fazem previsões erradas com base em estruturas de custo do passado
- O "modelo de preço por 1 milhão de tokens" usado com frequência não é intuitivo de entender
Comparação de preços entre APIs de busca na web e APIs de LLM
- Tarifas de APIs de busca na web representativas
- Google Search: $35/1000 consultas
- Bing Search: $15/1000 consultas
- Brave Search: $5~9/1000 consultas, com uma estrutura em que o preço sobe conforme o volume aumenta
- No geral, APIs de busca na web não são baratas, e as de melhor qualidade são mais caras
- Tarifas de APIs de LLM (base de 1k tokens)
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00 etc.
- É preciso calcular o custo de LLM de forma comparável à busca: quantidade de tokens gerados por consulta + preço por token
- 500~1000 tokens é o consumo médio por consulta, permitindo comparação direta
- Modelos de LLM baratos são de 10 a 25 vezes mais baratos do que a API de busca mais barata
- Mesmo LLMs de qualidade intermediária custam bem menos do que buscas na mesma faixa
- Ficam ainda mais baratos quando se consideram condições adicionais como lotes e descontos fora do horário de pico
O verdadeiro motivo de o custo ser baixo
- A suspeita de subsídio nos preços de API por parte dos provedores de modelo tem pouca base
- Também há pouco incentivo para expandir participação de mercado via API, e os preços de APIs oferecidas por várias empresas concorrentes também se formam de maneira competitiva
- Segundo dados medidos da Deepseek, a margem com base em GPU chega a 80%
- Custos de treinamento (Training) e inferência (Inference)
- O custo de treinamento está sendo efetivamente amortizado pelo grande volume de tráfego de inferência
- Em vez disso, os custos gerados pelo uso de serviços de backend de terceiros podem acabar ganhando destaque como problema
Contestando a afirmação de que “API de LLM deve dar prejuízo”
- O prejuízo de grandes operadores como a OpenAI é resultado de estratégias de monetização fracas
- Só monetizar na faixa de US$ 1 por mês já poderia viabilizar a virada para o lucro
- Também existe o objetivo de coletar dados aproveitando o tráfego de usuários gratuitos
- O verdadeiro problema de custo no futuro não será o LLM, mas o backend externo
- Ex.: quando um agente de IA chamar APIs externas para reservar ingressos, o peso real do custo pode recair sobre terceiros
- Prestadores de serviço devem reagir com bloqueio de crawling, migração para mobile, reforço de login etc.
Por que isso importa
- Muitas previsões sobre o futuro estão sendo feitas com base na premissa errada de que LLMs são caros
- Na prática, queda de custo e aumento de demanda estão ocorrendo ao mesmo tempo, e espera-se que os preços caiam ainda mais com maior dinamização do mercado
- Empresas de Frontier AI priorizam conquistar mercado antes da monetização, e de fato o preço de serviços de LLM é especialmente baixo
- O verdadeiro problema de custo não está no LLM em si, mas nos serviços externos integrados de retaguarda (por exemplo, sites de venda de ingressos)
- Em uma estrutura em que esses serviços externos não conseguem capturar receita, pode surgir no futuro um novo modelo de monetização ou um conflito técnico entre IA e serviços de backend
Conclusão e perspectivas
- O custo de inferência dos LLMs em si já não é mais uma limitação essencial para negócios de IA
- Com baixo custo de execução e várias opções de monetização (por exemplo, publicidade, assinatura etc.), há viabilidade comercial suficiente
- Daqui para frente, o principal desafio não será o LLM, mas sim os custos e a infraestrutura das fontes externas de dados usadas pela IA
- É necessário adotar uma percepção realista de custos e uma mudança de estratégia de negócios alinhadas às mudanças de mercado e tecnologia
4 comentários
Quando simulei cenários de uso on-prem com placas de vídeo próprias ou de aluguel de GPU na nuvem, achei que seria caríssimo.
Mas, ao atingir economia de escala, parece que fica bem viável.
Eu estava em dúvida se daria para monetizar com LLM, então fico surpreso que a perspectiva seja positiva.
Resultado de uma pesquisa surpreendente, mais impactante do que eu imaginava... O custo de usar modelos nos quais foram investidas dezenas de trilhões de wons é baixo, e ainda por cima parece estar em um nível em que dá para monetizar bem mesmo com esse custo...
Comentários do Hacker News
Acho que não é correto comparar uma API de busca lucrativa com uma API de LLM em nuvem que está tentando ganhar participação de mercado mesmo operando no prejuízo
Os dados atuais refletem uma situação em que as empresas estão fazendo investimentos enormes em infraestrutura (
capex) para disputar a liderança em IA, mas ainda não chegaram ao estágio de lucratividadeOs dois produtos estão em níveis de maturidade completamente diferentes, e não dá para ignorar a realidade de que não faz sentido continuar justificando prejuízos em um serviço de 10 anos cujo uso está caindo
Além disso, consultas de busca podem ser atendidas com CPU e alta taxa de acerto de cache, enquanto inferência de LLM normalmente exige GPU, e como a saída de cada token é grande, é difícil compartilhar cache entre usuários
Dizem que não há prova de que serviços de
inferencenão sejam lucrativos, mas a posição aqui é que basta pagar diretamente pelo custo deinferenceem provedores de hospedagem como a AWS para perceber issoA AWS não vai subsidiar indefinidamente um serviço que executa modelos de terceiros, e o ponto mais importante é que investimento em infraestrutura é
capex, mas o custo de rodar a inferência éopex(despesa operacional)Hoje em dia, provedores de API que hospedam modelos open source estão deixando uma margem bem grande entre a tarifa da API e o custo real do hardware de
inferenceClaro que isso não é tudo, mas considerando até otimizações próprias de inferência, a margem pode ser ainda maior
Mesmo provedores de modelos fechados, como OpenAI e Anthropic, se estimarmos com base nas especificações públicas dos modelos, a crença é que a Anthropic tem uma margem muito boa entre a tarifa da API e o custo de hardware
Se você já rodou esses modelos em produção, acha que dá para verificar isso diretamente
Há indícios de que a Perplexity manipulou a contabilidade ao mover
COGSpara P&D para parecer ter margens melhoresLink
Segundo uma análise do serviço de API da DeepSeek, eles não só estariam registrando margem de 500%, como também oferecendo o mesmo modelo a preços muito mais baixos que empresas americanas que prestam o mesmo serviço
A visão é que OpenAI e Anthropic também podem perfeitamente estar obtendo margens ainda maiores
GPUs em geral têm desempenho melhor tanto em custo quanto em eficiência energética do que CPUs, e a Anthropic usa cache de
KV-cacheem prompts de sistema de 24k tokensNão concordo com a ideia de que APIs de LLM sejam uma estratégia para tomar mercado operando no prejuízo
Hoje existem serviços como o OpenRouter, em que dá para trocar livremente de modelo ou provedor, então não há efeito de lock-in e a estratégia de conquistar participação de mercado perde sentido econômico
Em um produto com interface, como o ChatGPT na web, até faz sentido, mas vender API no prejuízo seria uma burrice
Acha até que VCs também não aceitariam que uma API fosse vendida dando prejuízo
Acho que comparar mecanismo de busca com LLM assumindo uso apenas para busca factual simples (por exemplo, "qual é a capital dos EUA?") é uma analogia muito distante dos principais casos de uso de ambos os serviços
Se alguém usa um mecanismo de busca, o foco seria acessar o índice da web, e obter uma resposta simples é uma função da UI/do produto, não o objetivo da API
Ao usar um LLM, a aplicação tende a ser análise de grandes volumes de dados, reconhecimento de imagem, raciocínio complexo, programação etc., e nesse caso o uso de tokens é muito maior do que em uma simples resposta de busca
O argumento do autor parece uma comparação errada do tipo "um Honda Civic é barato porque custa parecido com maçãs por libra"
Parece que o modelo tradicional de mecanismo de busca está ficando cada vez menos útil
Especialistas usam cada vez menos mecanismos de busca, e usuários comuns também os utilizam menos para explorar índices da web e mais de forma conversacional, como se estivessem perguntando a uma pessoa
Consultas como "qual é a capital dos EUA?", com partes desnecessárias, são na verdade mais adequadas para LLM do que para mecanismos de busca,
e a queda de qualidade da busca por causa de sites de spam de SEO também é um grande problema
LLMs lidam melhor com perguntas naturais e selecionam só a resposta desejada, sem explicações inúteis, spam ou anúncios, então a visão é que eles serão cada vez mais úteis
Não concorda com a observação do autor de que a comparação entre busca e LLM se manteria apenas em perguntas factuais simples, mas o ponto central da análise não é exatamente “comparar mecanismo de busca com LLM”, e sim comparar diferença entre preço e custo por unidade (token/consulta) para calcular margem
Para discutir se a API é ou não sustentada por subsídio, talvez nem seja necessário compará-la com mecanismo de busca
Concorda que LLMs são usados para análise de grandes volumes de dados e usos mais complexos, mas reconhece que isso corresponde a usuários avançados
Acha válido o ponto de que mecanismo de busca serve para encontrar o índice da web
Mas entende também que LLM pode encontrar a informação desejada com mais precisão, sem duplicação e mais rapidamente, então não dá para dizer que a busca tradicional é sempre melhor
Se o LLM der uma resposta direta e até anexar links para facilitar a verificação do resultado, a satisfação do usuário pode até ser maior
A opinião é que o motivo de o Google continuar escondendo resultados de busca é justamente o fato de resultados baseados em índice estarem se tornando menos úteis
Há também o argumento de que a OpenAI não teve um prejuízo tão grande em 2024 e que, considerando visitas/uso mensal, o custo de
inferencetalvez não seja tão alto na práticaLevando em conta que o ChatGPT é um dos sites mais visitados do mundo todos os meses, e que a maior parte do tráfego é uso gratuito, o custo real pode ser menor do que parece
Levanta-se a dúvida de que a base para estimar custos relacionados a LLM não está clara
Por exemplo, fatos atuais como tamanho permitido de bagagem em avião são mais confiáveis se o LLM consultar fontes com busca na web
Nesse caso, o consumo de tokens pode aumentar rapidamente e fazer a estimativa de custo errar,
e quando há várias rodadas de conversa acumulando contexto, o total de tokens usados cresce de forma explosiva
Reconhece-se que é difícil estimar custo sem dados reais de uso
Eu pergunto ao LLM sobre novidades recentes, e o LLM lê diretamente várias páginas da web, resume e orienta
Quando faço perguntas sobre assuntos atuais, ele sempre faz busca na web e inclui links de referência, então acho que esse tipo de uso é viável
Perguntei “qual é o tamanho permitido para bagagem de mão na rota DFW-CDG de uma companhia aérea americana”, e ele respondeu corretamente usando busca na web, incluindo o site oficial e links da FAA
Acho esse tipo de uso eficiente
Considerando a dificuldade de obter semicondutores, além do alto custo de energia e equipamentos, não acha que os grandes players consigam lucrar agora com serviços de LLM baseados em API sem melhorar a rentabilidade
Enquanto o preço do hardware e a questão energética não forem resolvidos, será difícil gerar grandes lucros por algum tempo
O exemplo citado é o YouTube: mesmo após 20 anos de operação, a Alphabet não divulga claramente se ele é lucrativo
A grande lucratividade da Alphabet (Google) vem da participação esmagadora no mercado de busca e da receita publicitária
A aposta é que empresas de IA também poderão algum dia converter participação de mercado em receita
Se houver
stickiness, a conversão de participação de mercado em lucro também pode ser bastante viávelDiz-se que a alta da ação pode, em certo sentido, ser um critério de rentabilidade corporativa,
mencionando que a Amazon usou estratégia parecida por mais de 10 anos
A lógica de que, com prejuízo de US$ 500 milhões e 500 milhões de
MAUem 2024, a OpenAI poderia atingir o ponto de equilíbrio “bastando” converter 500 milhões de usuários gratuitos emARPUanual de US$ 10 é, na prática, uma conta difícil de realizarSe cobrar até US$ 1 dos usuários gratuitos, a maioria provavelmente vai embora,
e a palavra “bastando” simplifica demais a realidade
Na verdade, a ideia não é cobrar US$ 1/mês para converter usuários, e sim que rodar LLM hoje ficou tão barato que até um modelo baseado em anúncios poderia gerar lucro suficiente
Comparado com serviços baseados em anúncios na mesma escala de usuários, o custo atual de LLM é muito menor, e assinatura não é a única resposta
Converter 500 milhões de pessoas em usuários pagos pode, ao contrário, mudar completamente o padrão de uso do serviço e o custo, fazendo as despesas explodirem
Uma suposição simples seria que, se só 1% virar pagante, isso já renderia US$ 1 bilhão por ano
Eu acho que esses serviços operam no prejuízo porque o valor dos dados dos usuários é muito maior que a receita de assinatura
Na prática, nem todo mundo precisa virar assinante pago; basta criar uma estrutura em que alguns usuários pagos subsidiem o restante
Com o tempo, depois da concentração de participação de mercado e da regulação, os investidores provavelmente verão a concretização do aumento de preços prometido
Não importa a pergunta, uma propaganda da Coca-Cola apareceria no meio da resposta,
projetos de código com IA receberiam anúncios automáticos,
e a cada décimo e-mail enviado pela IA entraria um anúncio de seguro,
ou seja, existem oportunidades infinitas de monetização
Ao estimar internamente o custo de operar LLM com foco no consumo de energia, chegou-se a algo na faixa de pouco mais de US$ 10 por 1 milhão de tokens, mesmo com requisições em rajada dos usuários internos
Como a carga no servidor não era alta, em escala maior o custo ainda poderia cair bastante
Há dúvida sobre se 1 resposta em tokens de um LLM e 1 resultado de busca de um mecanismo de busca podem mesmo ser comparados de forma equivalente
O autor compara 1.000 chamadas de LLM (cerca de 1 milhão de tokens) com 1.000 consultas de busca,
mas parece haver um possível erro de ordem de grandeza de até 1.000 vezes
(Correção posterior: ao ver o método do autor, confirmou-se diretamente que a comparação era de fato por preço de 1.000 usos de API, então era um mal-entendido)
Corrige-se que o autor realmente comparou custo unitário entre 1.000 usos de LLM (total de 1 milhão de tokens) e 1.000 usos de busca
Se o Gemini 2.0 Flash custa US$ 0,4 por 1 milhão de tokens e a Bing Search API custa US$ 15 por 1.000 consultas, então o lado do LLM sai 37 vezes mais barato
Se de fato se espera melhoria de eficiência e redução de custo em 100 vezes no futuro, fica a dúvida de por que estão expandindo tanto os data centers agora
Talvez bastasse aproveitar os data centers existentes no próximo ciclo de upgrade das máquinas,
e também se menciona a possibilidade de o atual frenesi de investimento ser uma bolha de fato
Compartilha-se um artigo relacionado de comparação de desempenho
Link
A impressão é que, olhando só o preço efetivo, continua caro,
e em uma situação de competição extrema por participação de mercado, não dá para interpretar os números isoladamente