OpenAI e Anthropic estão realmente perdendo dinheiro com inferência?
(martinalderson.com)- Ao contrário do que se afirma com frequência no setor, o custo de inferência de IA é mais barato do que parece e pode, na verdade, garantir alta rentabilidade
- Segundo a análise, o custo dos tokens de entrada é praticamente desprezível (cerca de $0,005 por milhão de tokens), enquanto o custo dos tokens de saída é superior a $3 por milhão, gerando uma diferença de 1000 vezes
- Nos planos de assinatura para consumidores (ex.: ChatGPT Pro a $20/mês), a relação com o custo real de inferência é de 5 a 6 vezes; nos planos para desenvolvedores (Claude Code), de 10 a 20 vezes, indicando rentabilidade muito alta
- Os planos de API deixam margens de 80% a 95% ou mais sobre o custo, formando uma estrutura de lucro semelhante à de software
- No fim, a inferência não é um “ralo de dinheiro”, mas sim, quando a estrutura desequilibrada entre entrada e saída é bem aproveitada, um negócio extremamente lucrativo
Introdução
- Há quem argumente que a IA, especialmente a inferência (inference), gera custos enormes, mas é necessário analisar sua viabilidade econômica com ceticismo
- O autor não tem experiência direta operando modelos frontier em larga escala, mas baseia a análise no entendimento do alto throughput de serviços em nuvem e da estrutura de custos de bare metal em comparação com hyperscalers
- A análise está no nível de conta de guardanapo (napkin math) e foca no custo puro de computação
- O custo de uma única GPU H100 foi fixado em $2 por hora; grandes empresas de IA provavelmente conseguem preços ainda menores
Premissas
- A análise se concentra apenas no custo puro de computação, testando a sustentabilidade com base na utilidade dos modelos atuais, sem assumir melhorias no modelo
- Usa a arquitetura DeepSeek R1 (671B de parâmetros totais, 37B ativos), assumindo desempenho semelhante ao Claude Sonnet 4 e ao GPT-5
Ambiente de produção com H100
- Configuração de produção: cluster com 72 GPUs H100, ao custo de $144 por hora
- Batch size de 32, com paralelismo de tensor em 8 GPUs para executar simultaneamente 9 instâncias do modelo
- Etapa de prefill (processamento de entrada): com base na largura de banda HBM de 3,35 TB/s da H100, são processados 45 forward passes por segundo
- Com 32 sequências por batch (média de 1.000 tokens), isso representa 1,44 milhão de tokens de entrada por segundo e 4,68 bilhões de tokens de entrada por hora
- No caso de modelos MoE, o roteamento de especialistas pode reduzir o throughput em 30% a 50%, mas o impacto é minimizado com paralelismo eficiente
- Etapa de decode (geração de saída): geração sequencial de tokens, com 1.440 tokens de saída por segundo e 46,7 milhões de tokens de saída por hora
- Cálculo do custo puro por token
- Tokens de entrada: $144 ÷ 4,68 bilhões = cerca de $0,003 por milhão de tokens
- Tokens de saída: $144 ÷ 46,7 milhões = cerca de $3,08 por milhão de tokens
- Assimetria: a diferença de custo entre processar entrada e gerar saída é de cerca de 1000 vezes
Gargalo de computação
- Em geral, o gargalo é a largura de banda de memória, mas em sequências longas de contexto de 128k+ o gargalo passa a ser a operação de atenção, elevando o custo em 2 a 10 vezes
- O Claude Code mantém um regime barato centrado em memória com seu limite de 200k tokens, evitando cenários caros dominados por computação
- A cobrança adicional por janelas de contexto longas reflete essa mudança econômica
Economia real do usuário
- Plano para consumidor ($20/mês do ChatGPT Pro): 100 mil tokens por dia (70% entrada, 30% saída), com custo real de cerca de $3 por mês
- Margem da OpenAI de 5 a 6 vezes
- Uso de desenvolvedor (Claude Code Max 5, $100/mês): 2 milhões de tokens de entrada por dia e 30 mil de saída, com custo real de cerca de $4,92 por mês, margem de 20,3 vezes
- Max 10 ($200/mês): 10 milhões de entrada por dia e 100 mil tokens de saída, com custo real de cerca de $16,89 por mês, margem de 11,8 vezes
- Agentes de código maximizam a viabilidade econômica com padrões de uso centrados em entrada (mais barata)
- Margem de lucro da API: diante do preço atual ($3/15 por milhão de tokens) e do custo real ($0,01/3), a margem fica em 80% a 95%
Conclusão
- A análise se baseia em várias premissas e pode conter erros, mas mesmo assumindo uma diferença de 3 vezes, a rentabilidade continua alta
- Processar entrada é barato, cerca de $0,005 por milhão de tokens, enquanto gerar saída custa $3+, uma diferença de mil vezes
- O ponto central é a estrutura assimétrica de custos entre tokens de entrada e saída, e serviços que a exploram bem podem alcançar alta rentabilidade
- Workloads com grande peso de entrada (assistentes de programação, análise de documentos, pesquisa etc.) → estrutura de custo quase gratuita, com rentabilidade muito alta
- Workloads com grande peso de saída (ex.: geração de vídeo) → pouca entrada e milhões de tokens de saída, com estrutura de custo desfavorável, tornando inevitável uma política de preços alta
- A afirmação de que “a inferência de IA é cara a ponto de ser insustentável” não corresponde à estrutura real de custos. Isso pode ser uma estratégia dos grandes incumbentes para desestimular a concorrência. Na prática, a estrutura de margens já é muito sólida
- Assim como, no passado, o exagero sobre os custos da computação em nuvem serviu para justificar lucros extraordinários das big techs, há o risco de que, no debate sobre custos de inferência, esteja operando um marketing excessivo de ‘medo do custo’
- É preciso abordar a estrutura de custos com base em fatos
1 comentários
Opiniões do Hacker News
Os cálculos matemáticos deste texto estão errados em vários aspectos
Em particular, a suposição de que a etapa de prefill é limitada por largura de banda está errada
Se você destrinchar o MFU calculado pelo autor, dá 13 PFLOPS/s, o que é 7 vezes o desempenho máximo do hardware real, então é um número impossível
Premissas como 32 requisições simultâneas, limite de 8 GPUs e a ideia de que só a operação de attention é o gargalo também estão todas erradas
É uma pena que, no HN, as pessoas que criticam este texto apontem só detalhes menores em vez dos erros fundamentais
Se este texto estiver certo, a afirmação de que a OpenAI ou a Anthropic estão tendo prejuízo com inferência também fica com base fraca
A parte sobre custo por token de saída também está bastante errada
Agradeço pela observação de que a matemática está errada, mas, nesse caso, seria útil apresentar também os números corretos para ajudar a ajustar as expectativas
Já fiz várias modelagens e, dependendo da depreciação das GPUs e da otimização do uso dos recursos, acredito que a inferência pode ter margem acima de 50%
No entanto, o resultado muda bastante dependendo de incluir ou não o custo de treinamento do modelo
Sem capitalizar o custo de treinamento a margem fica boa, mas, se ele for depreciado e incluído, a rentabilidade piora rapidamente
Fica a dúvida de por que excluir o treinamento
Um grande laboratório de IA pode ter margens altas, mas uma empresa comum é diferente
Mesmo depreciando GPUs em 5 anos, uma queda na utilização por perda de participação de mercado pode ser fatal
Mesmo pelos critérios IFRS/GAAP, o custo de treinamento é um gasto diretamente atribuível à receita, então inevitavelmente acaba entrando no custo dos produtos vendidos
Sam Altman disse: "estamos lucrando com inferência; se tirar o custo de treinamento, é muito rentável"
Amodei explicou algo parecido: se você olhar um modelo individualmente como se fosse uma empresa, com US$ 100 milhões de custo de treinamento e US$ 200 milhões de receita, a unidade-modelo fica no azul
Só que, ao mesmo tempo, a empresa inteira fica no vermelho porque está treinando uma próxima geração de modelos ainda mais cara
Mas dizer "dá lucro se tirar o custo de treinamento" é, na prática, uma frase banal que se aplica a quase toda empresa, então não tem muito significado
Na prática, é difícil avaliar a lucratividade real porque a OpenAI investe em startups e oferece créditos, criando uma estrutura em que o dinheiro circula
Segundo um podcast do NYT, Sam disse "se você olhar só para inferência, estamos no azul", mas a COO ao lado teve uma reação ambígua
Se a inferência for tão barata como o texto afirma, fica a dúvida de por que não existem muitos provedores de API ultrabaratos
Na prática, a maioria dos provedores baratos roda apenas modelos menores
Então fica a pergunta de por que modelos grandes como o DeepSeek-R1 não podem ser usados de forma barata
Na verdade, já existem vários provedores de API, e alguns até oferecem o DeepSeek-R1 de graça
Há também lugares como a DeepInfra, e os preços reais são ainda mais baixos do que os estimados no texto
Mas há custos fixos enormes, como treinamento de modelo, construção de infraestrutura e mão de obra, então não dá para explicar a lucratividade apenas pelo custo unitário da inferência
Para rodar diretamente um modelo de 600B, seriam necessárias dezenas de milhares de dólares em GPUs, e a maior parte ficaria ociosa, o que é ineficiente
Do ponto de vista de alguém com experiência em arquitetura de GPU, embora em contextos longos a operação de attention cresça teoricamente como O(n²),
O texto fez os cálculos com base no DeepSeek R1, mas o DeepSeek é anormalmente eficiente, então não é adequado para estimar custos da OpenAI/Anthropic
A eficiência do DeepSeek vem de MoE e attention MLA
O motivo de o DeepSeek ter chacoalhado o mercado não foi a eficiência de inferência, e sim a alegação de US$ 5 milhões em custo de treinamento
Na prática, é difícil dizer que GPT-5 ou Claude 4 sejam menos eficientes que o DeepSeek
Amodei também disse que o DeepSeek é apenas parte da curva esperada de redução de custos
Os números de tokens por dia apresentados no texto são baixos demais
O preço do ChatGPT Pro também foi mencionado de forma errada
Na realidade são US$ 200 por mês, e o próprio Sam Altman já disse que "estamos perdendo dinheiro com a assinatura Pro"
Porque as pessoas usam muito mais do que o esperado
Mas recentemente ele também disse que "estamos no azul com inferência"
Pessoalmente, não confio nas falas do Sam
Na prática, é bem provável que os 10% de usuários do topo respondam pela maior parte do uso, numa distribuição de potência
Segundo relatórios recentes, a Anthropic está com margem de 60%, e a OpenAI, incluindo usuários gratuitos, em torno de 50% de margem
speculative decoding, cache e afins reduzem ainda mais os custos
Os 37 bilhões de parâmetros assumidos no texto também não batem com o tamanho real do modelo
Ainda assim, olhar só para margem não mostra o quadro completo
Sam Altman repetiu em várias entrevistas: "se tirar o custo de treinamento, estamos no azul"