4 pontos por GN⁺ 2025-08-29 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Ao contrário do que se afirma com frequência no setor, o custo de inferência de IA é mais barato do que parece e pode, na verdade, garantir alta rentabilidade
  • Segundo a análise, o custo dos tokens de entrada é praticamente desprezível (cerca de $0,005 por milhão de tokens), enquanto o custo dos tokens de saída é superior a $3 por milhão, gerando uma diferença de 1000 vezes
  • Nos planos de assinatura para consumidores (ex.: ChatGPT Pro a $20/mês), a relação com o custo real de inferência é de 5 a 6 vezes; nos planos para desenvolvedores (Claude Code), de 10 a 20 vezes, indicando rentabilidade muito alta
  • Os planos de API deixam margens de 80% a 95% ou mais sobre o custo, formando uma estrutura de lucro semelhante à de software
  • No fim, a inferência não é um “ralo de dinheiro”, mas sim, quando a estrutura desequilibrada entre entrada e saída é bem aproveitada, um negócio extremamente lucrativo

Introdução

  • Há quem argumente que a IA, especialmente a inferência (inference), gera custos enormes, mas é necessário analisar sua viabilidade econômica com ceticismo
    • O autor não tem experiência direta operando modelos frontier em larga escala, mas baseia a análise no entendimento do alto throughput de serviços em nuvem e da estrutura de custos de bare metal em comparação com hyperscalers
  • A análise está no nível de conta de guardanapo (napkin math) e foca no custo puro de computação
    • O custo de uma única GPU H100 foi fixado em $2 por hora; grandes empresas de IA provavelmente conseguem preços ainda menores

Premissas

  • A análise se concentra apenas no custo puro de computação, testando a sustentabilidade com base na utilidade dos modelos atuais, sem assumir melhorias no modelo
    • Usa a arquitetura DeepSeek R1 (671B de parâmetros totais, 37B ativos), assumindo desempenho semelhante ao Claude Sonnet 4 e ao GPT-5

Ambiente de produção com H100

  • Configuração de produção: cluster com 72 GPUs H100, ao custo de $144 por hora
    • Batch size de 32, com paralelismo de tensor em 8 GPUs para executar simultaneamente 9 instâncias do modelo
  • Etapa de prefill (processamento de entrada): com base na largura de banda HBM de 3,35 TB/s da H100, são processados 45 forward passes por segundo
    • Com 32 sequências por batch (média de 1.000 tokens), isso representa 1,44 milhão de tokens de entrada por segundo e 4,68 bilhões de tokens de entrada por hora
    • No caso de modelos MoE, o roteamento de especialistas pode reduzir o throughput em 30% a 50%, mas o impacto é minimizado com paralelismo eficiente
  • Etapa de decode (geração de saída): geração sequencial de tokens, com 1.440 tokens de saída por segundo e 46,7 milhões de tokens de saída por hora
  • Cálculo do custo puro por token
    • Tokens de entrada: $144 ÷ 4,68 bilhões = cerca de $0,003 por milhão de tokens
    • Tokens de saída: $144 ÷ 46,7 milhões = cerca de $3,08 por milhão de tokens
      • Assimetria: a diferença de custo entre processar entrada e gerar saída é de cerca de 1000 vezes

Gargalo de computação

  • Em geral, o gargalo é a largura de banda de memória, mas em sequências longas de contexto de 128k+ o gargalo passa a ser a operação de atenção, elevando o custo em 2 a 10 vezes
    • O Claude Code mantém um regime barato centrado em memória com seu limite de 200k tokens, evitando cenários caros dominados por computação
    • A cobrança adicional por janelas de contexto longas reflete essa mudança econômica

Economia real do usuário

  • Plano para consumidor ($20/mês do ChatGPT Pro): 100 mil tokens por dia (70% entrada, 30% saída), com custo real de cerca de $3 por mês
    • Margem da OpenAI de 5 a 6 vezes
  • Uso de desenvolvedor (Claude Code Max 5, $100/mês): 2 milhões de tokens de entrada por dia e 30 mil de saída, com custo real de cerca de $4,92 por mês, margem de 20,3 vezes
    • Max 10 ($200/mês): 10 milhões de entrada por dia e 100 mil tokens de saída, com custo real de cerca de $16,89 por mês, margem de 11,8 vezes
    • Agentes de código maximizam a viabilidade econômica com padrões de uso centrados em entrada (mais barata)
  • Margem de lucro da API: diante do preço atual ($3/15 por milhão de tokens) e do custo real ($0,01/3), a margem fica em 80% a 95%

Conclusão

  • A análise se baseia em várias premissas e pode conter erros, mas mesmo assumindo uma diferença de 3 vezes, a rentabilidade continua alta
    • Processar entrada é barato, cerca de $0,005 por milhão de tokens, enquanto gerar saída custa $3+, uma diferença de mil vezes
  • O ponto central é a estrutura assimétrica de custos entre tokens de entrada e saída, e serviços que a exploram bem podem alcançar alta rentabilidade
    • Workloads com grande peso de entrada (assistentes de programação, análise de documentos, pesquisa etc.) → estrutura de custo quase gratuita, com rentabilidade muito alta
    • Workloads com grande peso de saída (ex.: geração de vídeo) → pouca entrada e milhões de tokens de saída, com estrutura de custo desfavorável, tornando inevitável uma política de preços alta
  • A afirmação de que “a inferência de IA é cara a ponto de ser insustentável” não corresponde à estrutura real de custos. Isso pode ser uma estratégia dos grandes incumbentes para desestimular a concorrência. Na prática, a estrutura de margens já é muito sólida
  • Assim como, no passado, o exagero sobre os custos da computação em nuvem serviu para justificar lucros extraordinários das big techs, há o risco de que, no debate sobre custos de inferência, esteja operando um marketing excessivo de ‘medo do custo’
    • É preciso abordar a estrutura de custos com base em fatos

Ainda não há comentários.

Ainda não há comentários.