4 pontos por GN⁺ 2025-08-29 | 1 comentários | Compartilhar no WhatsApp
  • Ao contrário do que se afirma com frequência no setor, o custo de inferência de IA é mais barato do que parece e pode, na verdade, garantir alta rentabilidade
  • Segundo a análise, o custo dos tokens de entrada é praticamente desprezível (cerca de $0,005 por milhão de tokens), enquanto o custo dos tokens de saída é superior a $3 por milhão, gerando uma diferença de 1000 vezes
  • Nos planos de assinatura para consumidores (ex.: ChatGPT Pro a $20/mês), a relação com o custo real de inferência é de 5 a 6 vezes; nos planos para desenvolvedores (Claude Code), de 10 a 20 vezes, indicando rentabilidade muito alta
  • Os planos de API deixam margens de 80% a 95% ou mais sobre o custo, formando uma estrutura de lucro semelhante à de software
  • No fim, a inferência não é um “ralo de dinheiro”, mas sim, quando a estrutura desequilibrada entre entrada e saída é bem aproveitada, um negócio extremamente lucrativo

Introdução

  • Há quem argumente que a IA, especialmente a inferência (inference), gera custos enormes, mas é necessário analisar sua viabilidade econômica com ceticismo
    • O autor não tem experiência direta operando modelos frontier em larga escala, mas baseia a análise no entendimento do alto throughput de serviços em nuvem e da estrutura de custos de bare metal em comparação com hyperscalers
  • A análise está no nível de conta de guardanapo (napkin math) e foca no custo puro de computação
    • O custo de uma única GPU H100 foi fixado em $2 por hora; grandes empresas de IA provavelmente conseguem preços ainda menores

Premissas

  • A análise se concentra apenas no custo puro de computação, testando a sustentabilidade com base na utilidade dos modelos atuais, sem assumir melhorias no modelo
    • Usa a arquitetura DeepSeek R1 (671B de parâmetros totais, 37B ativos), assumindo desempenho semelhante ao Claude Sonnet 4 e ao GPT-5

Ambiente de produção com H100

  • Configuração de produção: cluster com 72 GPUs H100, ao custo de $144 por hora
    • Batch size de 32, com paralelismo de tensor em 8 GPUs para executar simultaneamente 9 instâncias do modelo
  • Etapa de prefill (processamento de entrada): com base na largura de banda HBM de 3,35 TB/s da H100, são processados 45 forward passes por segundo
    • Com 32 sequências por batch (média de 1.000 tokens), isso representa 1,44 milhão de tokens de entrada por segundo e 4,68 bilhões de tokens de entrada por hora
    • No caso de modelos MoE, o roteamento de especialistas pode reduzir o throughput em 30% a 50%, mas o impacto é minimizado com paralelismo eficiente
  • Etapa de decode (geração de saída): geração sequencial de tokens, com 1.440 tokens de saída por segundo e 46,7 milhões de tokens de saída por hora
  • Cálculo do custo puro por token
    • Tokens de entrada: $144 ÷ 4,68 bilhões = cerca de $0,003 por milhão de tokens
    • Tokens de saída: $144 ÷ 46,7 milhões = cerca de $3,08 por milhão de tokens
      • Assimetria: a diferença de custo entre processar entrada e gerar saída é de cerca de 1000 vezes

Gargalo de computação

  • Em geral, o gargalo é a largura de banda de memória, mas em sequências longas de contexto de 128k+ o gargalo passa a ser a operação de atenção, elevando o custo em 2 a 10 vezes
    • O Claude Code mantém um regime barato centrado em memória com seu limite de 200k tokens, evitando cenários caros dominados por computação
    • A cobrança adicional por janelas de contexto longas reflete essa mudança econômica

Economia real do usuário

  • Plano para consumidor ($20/mês do ChatGPT Pro): 100 mil tokens por dia (70% entrada, 30% saída), com custo real de cerca de $3 por mês
    • Margem da OpenAI de 5 a 6 vezes
  • Uso de desenvolvedor (Claude Code Max 5, $100/mês): 2 milhões de tokens de entrada por dia e 30 mil de saída, com custo real de cerca de $4,92 por mês, margem de 20,3 vezes
    • Max 10 ($200/mês): 10 milhões de entrada por dia e 100 mil tokens de saída, com custo real de cerca de $16,89 por mês, margem de 11,8 vezes
    • Agentes de código maximizam a viabilidade econômica com padrões de uso centrados em entrada (mais barata)
  • Margem de lucro da API: diante do preço atual ($3/15 por milhão de tokens) e do custo real ($0,01/3), a margem fica em 80% a 95%

Conclusão

  • A análise se baseia em várias premissas e pode conter erros, mas mesmo assumindo uma diferença de 3 vezes, a rentabilidade continua alta
    • Processar entrada é barato, cerca de $0,005 por milhão de tokens, enquanto gerar saída custa $3+, uma diferença de mil vezes
  • O ponto central é a estrutura assimétrica de custos entre tokens de entrada e saída, e serviços que a exploram bem podem alcançar alta rentabilidade
    • Workloads com grande peso de entrada (assistentes de programação, análise de documentos, pesquisa etc.) → estrutura de custo quase gratuita, com rentabilidade muito alta
    • Workloads com grande peso de saída (ex.: geração de vídeo) → pouca entrada e milhões de tokens de saída, com estrutura de custo desfavorável, tornando inevitável uma política de preços alta
  • A afirmação de que “a inferência de IA é cara a ponto de ser insustentável” não corresponde à estrutura real de custos. Isso pode ser uma estratégia dos grandes incumbentes para desestimular a concorrência. Na prática, a estrutura de margens já é muito sólida
  • Assim como, no passado, o exagero sobre os custos da computação em nuvem serviu para justificar lucros extraordinários das big techs, há o risco de que, no debate sobre custos de inferência, esteja operando um marketing excessivo de ‘medo do custo’
    • É preciso abordar a estrutura de custos com base em fatos

1 comentários

 
GN⁺ 2025-08-29
Opiniões do Hacker News
  • Os cálculos matemáticos deste texto estão errados em vários aspectos

    • Em particular, a suposição de que a etapa de prefill é limitada por largura de banda está errada

    • Se você destrinchar o MFU calculado pelo autor, dá 13 PFLOPS/s, o que é 7 vezes o desempenho máximo do hardware real, então é um número impossível

    • Premissas como 32 requisições simultâneas, limite de 8 GPUs e a ideia de que só a operação de attention é o gargalo também estão todas erradas

    • É uma pena que, no HN, as pessoas que criticam este texto apontem só detalhes menores em vez dos erros fundamentais

    • Se este texto estiver certo, a afirmação de que a OpenAI ou a Anthropic estão tendo prejuízo com inferência também fica com base fraca

    • A parte sobre custo por token de saída também está bastante errada

      • Na prática, basta ter um cluster de GPUs robusto para decodificar modelos grandes a baixo custo
      • Como exemplo, há 4 meses o custo estava na faixa de US$ 0,2 por 1 milhão de tokens de saída, e depois disso ficou ainda mais barato com as GPUs B200 e otimizações de código
    • Agradeço pela observação de que a matemática está errada, mas, nesse caso, seria útil apresentar também os números corretos para ajudar a ajustar as expectativas

  • Já fiz várias modelagens e, dependendo da depreciação das GPUs e da otimização do uso dos recursos, acredito que a inferência pode ter margem acima de 50%

    • No entanto, o resultado muda bastante dependendo de incluir ou não o custo de treinamento do modelo

    • Sem capitalizar o custo de treinamento a margem fica boa, mas, se ele for depreciado e incluído, a rentabilidade piora rapidamente

    • Fica a dúvida de por que excluir o treinamento

      • Um modelo não é usado por anos; ele precisa ser treinado de novo a cada poucos meses para manter a competitividade
    • Um grande laboratório de IA pode ter margens altas, mas uma empresa comum é diferente

      • Por exemplo, pelo material público da equipe do DeepSeek, em 8x H200 SXM com vLLM dá algo em torno de 12K tok/s
      • Mas, para processar 100K~200K tok/s, seria necessário um número enorme de GPUs, e a maior parte ficaria ociosa
      • Portanto, suposições como 100% de utilização, processamento de entrada grátis e ausência de gargalo de rede não são realistas
    • Mesmo depreciando GPUs em 5 anos, uma queda na utilização por perda de participação de mercado pode ser fatal

    • Mesmo pelos critérios IFRS/GAAP, o custo de treinamento é um gasto diretamente atribuível à receita, então inevitavelmente acaba entrando no custo dos produtos vendidos

  • Sam Altman disse: "estamos lucrando com inferência; se tirar o custo de treinamento, é muito rentável"

    • Amodei explicou algo parecido: se você olhar um modelo individualmente como se fosse uma empresa, com US$ 100 milhões de custo de treinamento e US$ 200 milhões de receita, a unidade-modelo fica no azul

    • Só que, ao mesmo tempo, a empresa inteira fica no vermelho porque está treinando uma próxima geração de modelos ainda mais cara

    • Mas dizer "dá lucro se tirar o custo de treinamento" é, na prática, uma frase banal que se aplica a quase toda empresa, então não tem muito significado

    • Na prática, é difícil avaliar a lucratividade real porque a OpenAI investe em startups e oferece créditos, criando uma estrutura em que o dinheiro circula

    • Segundo um podcast do NYT, Sam disse "se você olhar só para inferência, estamos no azul", mas a COO ao lado teve uma reação ambígua

      • Ou seja, na prática talvez ainda não haja lucro completo nem mesmo só com inferência
  • Se a inferência for tão barata como o texto afirma, fica a dúvida de por que não existem muitos provedores de API ultrabaratos

    • Na prática, a maioria dos provedores baratos roda apenas modelos menores

    • Então fica a pergunta de por que modelos grandes como o DeepSeek-R1 não podem ser usados de forma barata

    • Na verdade, já existem vários provedores de API, e alguns até oferecem o DeepSeek-R1 de graça

    • Há também lugares como a DeepInfra, e os preços reais são ainda mais baixos do que os estimados no texto

    • Mas há custos fixos enormes, como treinamento de modelo, construção de infraestrutura e mão de obra, então não dá para explicar a lucratividade apenas pelo custo unitário da inferência

    • Para rodar diretamente um modelo de 600B, seriam necessárias dezenas de milhares de dólares em GPUs, e a maior parte ficaria ociosa, o que é ineficiente

      • Por isso faz sentido que provedores de modelo reúnam GPUs e ofereçam isso como infraestrutura compartilhada
  • Do ponto de vista de alguém com experiência em arquitetura de GPU, embora em contextos longos a operação de attention cresça teoricamente como O(n²),

    • o gargalo real é a velocidade de transferência de memória
    • Por exemplo, mesmo com HBM de 2+TB/s é difícil atender a largura de banda exigida por núcleo, e, considerando colisões, o gargalo fica milhares de vezes pior
  • O texto fez os cálculos com base no DeepSeek R1, mas o DeepSeek é anormalmente eficiente, então não é adequado para estimar custos da OpenAI/Anthropic

    • A eficiência do DeepSeek vem de MoE e attention MLA

      • Mas é bem provável que OpenAI e Google já usem otimizações parecidas há muito tempo
      • O GPT OSS usa até fp4, enquanto o DeepSeek ainda não
    • O motivo de o DeepSeek ter chacoalhado o mercado não foi a eficiência de inferência, e sim a alegação de US$ 5 milhões em custo de treinamento

    • Na prática, é difícil dizer que GPT-5 ou Claude 4 sejam menos eficientes que o DeepSeek

    • Amodei também disse que o DeepSeek é apenas parte da curva esperada de redução de custos

      • Ou seja, o especial não foi um avanço revolucionário, mas o fato de uma empresa chinesa ter mostrado isso primeiro
  • Os números de tokens por dia apresentados no texto são baixos demais

    • Eu uso em média 300 milhões a 800 milhões de tokens por dia, e meus colegas usam algo em torno de 150 milhões a 600 milhões
    • Além disso, o texto não considerou cache de prompt, o que reduz o volume de inferência em 85% a 95%
    • Também é preciso especificar qual método de quantização está sendo usado no modelo e no cache KV para que o cálculo seja preciso
  • O preço do ChatGPT Pro também foi mencionado de forma errada

    • Na realidade são US$ 200 por mês, e o próprio Sam Altman já disse que "estamos perdendo dinheiro com a assinatura Pro"

    • Porque as pessoas usam muito mais do que o esperado

    • Mas recentemente ele também disse que "estamos no azul com inferência"

      • Como é uma empresa de capital fechado, é difícil saber qual dessas falas está mais próxima da verdade
    • Pessoalmente, não confio nas falas do Sam

      • Tenho a sensação de que estão mais para marketing do tipo "nosso produto tem muito valor"
    • Na prática, é bem provável que os 10% de usuários do topo respondam pela maior parte do uso, numa distribuição de potência

      • Portanto, a assinatura Pro pode ter uma estrutura em que dá prejuízo
  • Segundo relatórios recentes, a Anthropic está com margem de 60%, e a OpenAI, incluindo usuários gratuitos, em torno de 50% de margem

    • speculative decoding, cache e afins reduzem ainda mais os custos

    • Os 37 bilhões de parâmetros assumidos no texto também não batem com o tamanho real do modelo

    • Ainda assim, olhar só para margem não mostra o quadro completo

      • É bem provável que Azure ou AWS estejam oferecendo grandes descontos
  • Sam Altman repetiu em várias entrevistas: "se tirar o custo de treinamento, estamos no azul"

    • Alguns usam isso como base para dizer que a afirmação "a OpenAI perde dinheiro a cada requisição" está errada
    • Mas, se treinamento fosse de graça, qualquer um poderia fazer isso, então é uma suposição sem muito significado
    • Dario Amodei também explicou que, olhando por modelo, no fim das contas há lucro
    • Mas a fala do Sam pode ser voltada a convencer investidores, e a lucratividade real continua opaca