- O cálculo de US$ 5 mil do plano Claude Code Max citado pela Forbes usa como base o preço de varejo da API, e não o custo real de compute
- Comparando os preços dos modelos Qwen 3.5 397B e Kimi K2.5 no OpenRouter, modelos de escala semelhante estão sendo operados por cerca de um décimo da tarifa da API da Anthropic
- Com esse critério, o custo real estimado da Anthropic seria de cerca de US$ 500, ou seja, uma perda mensal de apenas US$ 300 para alguns usuários de uso intenso
- A maioria dos usuários não atinge o limite de tokens e, com base no uso médio, a estrutura é de equilíbrio ou lucro
- A percepção de que o custo de inferência de IA é excessivo é um equívoco e vem sendo usada para justificar as altas margens de API das grandes empresas de IA
Verificando a alegação de US$ 5 mil da Forbes
- Em uma matéria sobre a Cursor, a Forbes citou que o plano de US$ 200 da Anthropic permite até US$ 5 mil em uso de compute
- A citação foi apresentada como a fala de “alguém que viu uma análise dos padrões de uso de compute da empresa”
- Esse número é um cálculo baseado no preço de varejo da API, não no custo real de compute
- A API do Opus 4.6 da Anthropic é cobrada em US$ 5 por 1 milhão de tokens de entrada e US$ 25 por 1 milhão de tokens de saída
- Nessa tarifa, usuários muito intensivos podem chegar a US$ 5 mil em uso mensal de API
Estimativa do custo real de compute
- No OpenRouter, o modelo Qwen 3.5 397B-A17B de escala semelhante custa cerca de US$ 0,39 por 1 milhão de tokens de entrada e US$ 2,34 por saída
- O modelo Kimi K2.5 é ainda mais barato, com US$ 0,45 na entrada e US$ 2,25 na saída
- Isso representa um valor cerca de 10 vezes menor do que a tarifa da API da Anthropic
- O custo de tokens em cache também difere em proporção semelhante
- Ex.: o custo de leitura de cache do Kimi K2.5 na DeepInfra é de US$ 0,07/MTok, enquanto na Anthropic é de US$ 0,50/MTok
- Portanto, o custo real de compute pode ser estimado em cerca de 10% do valor cobrado na API
O custo real dos usuários do Claude Code Max
- Um usuário que consome tokens equivalentes a US$ 5 mil no preço da API teria um custo real de cerca de US$ 500
- Nesse caso, a Anthropic teria uma perda mensal de aproximadamente US$ 300
- No entanto, a Anthropic afirma que menos de 5% dos usuários atingem o limite de tokens
- Usuários comuns ficam, em média, em menos de 50% do uso de tokens
- Segundo os dados de
/cost da Anthropic, o usuário médio tem cerca de US$ 6 por dia em uso equivalente de API, e 90% ficam abaixo de US$ 12
- Em custo real, isso dá cerca de US$ 18 por mês, o que permite rentabilidade diante de assinaturas de US$ 20 a US$ 200
Diferença de custo em relação à Cursor
- O número de US$ 5 mil vem de uma análise interna da Cursor
- A Cursor precisa usar o Opus 4.6 da Anthropic pelo preço de varejo da API
- Por isso, do ponto de vista da Cursor, pode haver um custo mensal de US$ 5 mil por usuário avançado
- Já o custo real da Anthropic estaria em torno de US$ 500
- A Cursor está tendo dificuldades porque desenvolvedores preferem os modelos da Anthropic
A estrutura de lucro da Anthropic e o mal-entendido
- A Anthropic continua operando no vermelho no total por causa de custos de treinamento, pessoal e grandes investimentos em compute
- Porém, o custo de inferência por token provavelmente tem alta rentabilidade
- A ideia de que “inferência de IA é um negócio deficitário” justifica margens excessivas nas APIs e reduz a concorrência
- Para entender a economia real da inferência, faz mais sentido olhar os preços públicos de modelos no OpenRouter
- Eles representam apenas uma fração do custo cobrado nas APIs das grandes empresas de IA
1 comentários
Comentários do Hacker News
Comparar o Qwen 3.5 397B-A17B com os modelos da Anthropic é uma comparação sem pé nem cabeça
Modelos chineses como Qwen ou DeepSeek são conhecidos por serem mais de 10x mais eficientes que os da Anthropic
É por isso também que a diferença entre os preços do OpenRouter e os preços oficiais não é tão grande. Além disso, não está claro quais técnicas de quantização (quantization) os provedores do OpenRouter usam. Na prática, talvez entreguem eficiência 100x maior
Claro, nem todo usuário usa o plano no máximo, então não há prejuízo de US$ 5.000 por usuário
Se olhar os números de t/s do Opus 4.5 no Amazon Bedrock e dos modelos chineses, eles ficam em nível parecido, então o número de parâmetros ativos real também é semelhante
No OpenRouter, você também pode escolher diretamente provedores BF16 ou Q8
As empresas chinesas têm escassez de GPU, mas conseguiram muitas inovações em eficiência de inferência. O CEO da DeepSeek, Liang, também aparece como autor em artigos da área
A Anthropic nunca divulgou a arquitetura do modelo nem o número de parâmetros
A maioria dos modelos open source reduz custo computacional destilando outros modelos ou usando MoE
É difícil confiar em um post de blog que usa o Qwen como referência de comparação
Segundo a matéria original, no ano passado a Cursor estimava que uma assinatura do Claude Code de US$ 200 por mês consumia até US$ 2.000 em computação
Agora esse subsídio ficou ainda maior, e dizem que o mesmo plano pode consumir cerca de US$ 5.000 em computação
Muita gente acredita que OpenAI e Anthropic vendem tokens no prejuízo, mas quase não há evidência real disso
Esse meme se espalhou por causa de uma matéria imprecisa da Forbes. O texto nem sequer entende a diferença entre custo de API e custo de computação
Vendo que a Anthropic bloqueia uso fora do CC e que o limite de gasto da API é de US$ 5.000, é possível que a rentabilidade seja baixa
Custos de pesquisa, treinamento, infraestrutura e pessoal também deveriam entrar no custo de geração de tokens
O preço baixo dos modelos open weight existe por dumping para ganhar participação de mercado, e o custo real seria maior
No fim, essa estrutura não deve se sustentar por muito tempo
Se o modelo não continuar sendo treinado, o valor do token cai
Se nossa equipe usasse o Claude Code via API, gastaria US$ 200 mil por mês, mas na prática pagamos só US$ 1.400 por mês com assinaturas Max
Dá algo como US$ 50 mil por usuário, mas olhando a quantidade de tokens JSON, parece que a maior parte são requisições em cache, então o custo real provavelmente é bem menor
O custo real provavelmente fica na faixa de US$ 25 mil a US$ 30 mil. A estimativa de US$ 5 mil da Forbes é exagerada
npx ccusage, dá para checar os logs locais e calcular o custo com base na APISe a computação da Anthropic estiver totalmente saturada, usuários pesados do Claude Code podem gerar um custo de oportunidade de US$ 5.000 por usuário
Mas esse tipo de comparação é tão inadequado quanto comparar a quantidade de engrenagens de um Rolex com a de um relógio sem marca
Com a Anthropic pode ocorrer o mesmo: usuários podem questionar a qualidade incerta ou migrar para cobrança baseada em API
Custo de inferência e margem de lucro variam bastante entre modelos open weight e grandes provedores de nuvem
É algo parecido com a diferença entre custos de P&D na indústria farmacêutica e custo de produção de genéricos
A margem de inferência da OpenAI é estimada em cerca de 70%, e a da Anthropic em 40% a 90%
Artigos relacionados: Phemex, SaaStr, The Information, Investing.com
Pelos critérios contábeis, a receita por modelo já pode ter compensado o custo de treinamento
Mas, em fluxo de caixa, a empresa ainda não seria cashflow positive
Se não se entende essa diferença, acaba-se subestimando toda a indústria de IA
Não há certeza sobre qual seria o tamanho do modelo do Opus 4.6
A suposição é de que seja muito maior que o Qwen397B
A Anthropic provavelmente está ganhando dinheiro com API, mas talvez não com margem de 90%
Cache é quase praticamente de graça, mas na realidade não é totalmente gratuito
Tirando o custo dos tokens de cache, o uso real de computação de uma assinatura de US$ 200 cai para algo em torno de US$ 800
A maior parte da computação provavelmente fica ociosa
Se o cache não for aproveitado, isso gera custo de oportunidade
A Cursor precisa usar o Opus 4.6 com o preço de API de varejo da Anthropic, então pode acabar pagando US$ 5.000 por mês por usuário pesado
Já o custo real da Anthropic provavelmente ficaria na faixa de US$ 500
Ouvi recentemente no podcast do Swix sobre a estratégia de agentes em nuvem da Cursor, e a barreira de entrada está caindo
A assinatura do Claude está mais próxima de um conceito de spot instance
A API é o serviço on-demand, e a prioridade está na API
A computação que sobra é alocada aos usuários de assinatura, e, se faltar capacidade, o tráfego é roteado para modelos quantizados mais baratos
Esse tipo de assinatura aproveita recursos ociosos e também ajuda a melhorar a qualidade do treinamento do modelo com fluxos de trabalho previsíveis
Já usei Qwen Code, Codex e Claude, e o Codex foi 2x melhor que o Qwen, enquanto o Claude foi 2x melhor que o Codex
Por isso, eu esperaria que o Claude Opus custasse de 4x a 5x mais que o Qwen Code