- Ao contrário do que se afirma com frequência no setor, o custo de inferência de IA é mais barato do que parece e pode, na verdade, garantir alta rentabilidade
- Segundo a análise, o custo dos tokens de entrada é praticamente desprezível (cerca de $0,005 por milhão de tokens), enquanto o custo dos tokens de saída é superior a $3 por milhão, gerando uma diferença de 1000 vezes
- Nos planos de assinatura para consumidores (ex.: ChatGPT Pro a $20/mês), a relação com o custo real de inferência é de 5 a 6 vezes; nos planos para desenvolvedores (Claude Code), de 10 a 20 vezes, indicando rentabilidade muito alta
- Os planos de API deixam margens de 80% a 95% ou mais sobre o custo, formando uma estrutura de lucro semelhante à de software
- No fim, a inferência não é um “ralo de dinheiro”, mas sim, quando a estrutura desequilibrada entre entrada e saída é bem aproveitada, um negócio extremamente lucrativo
Introdução
- Há quem argumente que a IA, especialmente a inferência (inference), gera custos enormes, mas é necessário analisar sua viabilidade econômica com ceticismo
- O autor não tem experiência direta operando modelos frontier em larga escala, mas baseia a análise no entendimento do alto throughput de serviços em nuvem e da estrutura de custos de bare metal em comparação com hyperscalers
- A análise está no nível de conta de guardanapo (napkin math) e foca no custo puro de computação
- O custo de uma única GPU H100 foi fixado em $2 por hora; grandes empresas de IA provavelmente conseguem preços ainda menores
Premissas
- A análise se concentra apenas no custo puro de computação, testando a sustentabilidade com base na utilidade dos modelos atuais, sem assumir melhorias no modelo
- Usa a arquitetura DeepSeek R1 (671B de parâmetros totais, 37B ativos), assumindo desempenho semelhante ao Claude Sonnet 4 e ao GPT-5
Ambiente de produção com H100
- Configuração de produção: cluster com 72 GPUs H100, ao custo de $144 por hora
- Batch size de 32, com paralelismo de tensor em 8 GPUs para executar simultaneamente 9 instâncias do modelo
- Etapa de prefill (processamento de entrada): com base na largura de banda HBM de 3,35 TB/s da H100, são processados 45 forward passes por segundo
- Com 32 sequências por batch (média de 1.000 tokens), isso representa 1,44 milhão de tokens de entrada por segundo e 4,68 bilhões de tokens de entrada por hora
- No caso de modelos MoE, o roteamento de especialistas pode reduzir o throughput em 30% a 50%, mas o impacto é minimizado com paralelismo eficiente
- Etapa de decode (geração de saída): geração sequencial de tokens, com 1.440 tokens de saída por segundo e 46,7 milhões de tokens de saída por hora
- Cálculo do custo puro por token
- Tokens de entrada: $144 ÷ 4,68 bilhões = cerca de $0,003 por milhão de tokens
- Tokens de saída: $144 ÷ 46,7 milhões = cerca de $3,08 por milhão de tokens
- Assimetria: a diferença de custo entre processar entrada e gerar saída é de cerca de 1000 vezes
Gargalo de computação
- Em geral, o gargalo é a largura de banda de memória, mas em sequências longas de contexto de 128k+ o gargalo passa a ser a operação de atenção, elevando o custo em 2 a 10 vezes
- O Claude Code mantém um regime barato centrado em memória com seu limite de 200k tokens, evitando cenários caros dominados por computação
- A cobrança adicional por janelas de contexto longas reflete essa mudança econômica
Economia real do usuário
- Plano para consumidor ($20/mês do ChatGPT Pro): 100 mil tokens por dia (70% entrada, 30% saída), com custo real de cerca de $3 por mês
- Margem da OpenAI de 5 a 6 vezes
- Uso de desenvolvedor (Claude Code Max 5, $100/mês): 2 milhões de tokens de entrada por dia e 30 mil de saída, com custo real de cerca de $4,92 por mês, margem de 20,3 vezes
- Max 10 ($200/mês): 10 milhões de entrada por dia e 100 mil tokens de saída, com custo real de cerca de $16,89 por mês, margem de 11,8 vezes
- Agentes de código maximizam a viabilidade econômica com padrões de uso centrados em entrada (mais barata)
- Margem de lucro da API: diante do preço atual ($3/15 por milhão de tokens) e do custo real ($0,01/3), a margem fica em 80% a 95%
Conclusão
- A análise se baseia em várias premissas e pode conter erros, mas mesmo assumindo uma diferença de 3 vezes, a rentabilidade continua alta
- Processar entrada é barato, cerca de $0,005 por milhão de tokens, enquanto gerar saída custa $3+, uma diferença de mil vezes
- O ponto central é a estrutura assimétrica de custos entre tokens de entrada e saída, e serviços que a exploram bem podem alcançar alta rentabilidade
- Workloads com grande peso de entrada (assistentes de programação, análise de documentos, pesquisa etc.) → estrutura de custo quase gratuita, com rentabilidade muito alta
- Workloads com grande peso de saída (ex.: geração de vídeo) → pouca entrada e milhões de tokens de saída, com estrutura de custo desfavorável, tornando inevitável uma política de preços alta
- A afirmação de que “a inferência de IA é cara a ponto de ser insustentável” não corresponde à estrutura real de custos. Isso pode ser uma estratégia dos grandes incumbentes para desestimular a concorrência. Na prática, a estrutura de margens já é muito sólida
- Assim como, no passado, o exagero sobre os custos da computação em nuvem serviu para justificar lucros extraordinários das big techs, há o risco de que, no debate sobre custos de inferência, esteja operando um marketing excessivo de ‘medo do custo’
- É preciso abordar a estrutura de custos com base em fatos
Ainda não há comentários.