A alegação de que o Claude Code custa US$ 5 mil por usuário para a Anthropic não é verdadeira

(martinalderson.com)

1 pontos por GN⁺ 2026-03-11 | 1 comentários | Compartilhar no WhatsApp

O cálculo de US$ 5 mil do plano Claude Code Max citado pela Forbes usa como base o preço de varejo da API, e não o custo real de compute
Comparando os preços dos modelos Qwen 3.5 397B e Kimi K2.5 no OpenRouter, modelos de escala semelhante estão sendo operados por cerca de um décimo da tarifa da API da Anthropic
Com esse critério, o custo real estimado da Anthropic seria de cerca de US$ 500, ou seja, uma perda mensal de apenas US$ 300 para alguns usuários de uso intenso
A maioria dos usuários não atinge o limite de tokens e, com base no uso médio, a estrutura é de equilíbrio ou lucro
A percepção de que o custo de inferência de IA é excessivo é um equívoco e vem sendo usada para justificar as altas margens de API das grandes empresas de IA

Verificando a alegação de US$ 5 mil da Forbes

Em uma matéria sobre a Cursor, a Forbes citou que o plano de US$ 200 da Anthropic permite até US$ 5 mil em uso de compute
- A citação foi apresentada como a fala de “alguém que viu uma análise dos padrões de uso de compute da empresa”
Esse número é um cálculo baseado no preço de varejo da API, não no custo real de compute
A API do Opus 4.6 da Anthropic é cobrada em US$ 5 por 1 milhão de tokens de entrada e US$ 25 por 1 milhão de tokens de saída
- Nessa tarifa, usuários muito intensivos podem chegar a US$ 5 mil em uso mensal de API

Estimativa do custo real de compute

No OpenRouter, o modelo Qwen 3.5 397B-A17B de escala semelhante custa cerca de US$ 0,39 por 1 milhão de tokens de entrada e US$ 2,34 por saída
- O modelo Kimi K2.5 é ainda mais barato, com US$ 0,45 na entrada e US$ 2,25 na saída
Isso representa um valor cerca de 10 vezes menor do que a tarifa da API da Anthropic
O custo de tokens em cache também difere em proporção semelhante
- Ex.: o custo de leitura de cache do Kimi K2.5 na DeepInfra é de US$ 0,07/MTok, enquanto na Anthropic é de US$ 0,50/MTok
Portanto, o custo real de compute pode ser estimado em cerca de 10% do valor cobrado na API

O custo real dos usuários do Claude Code Max

Um usuário que consome tokens equivalentes a US$ 5 mil no preço da API teria um custo real de cerca de US$ 500
- Nesse caso, a Anthropic teria uma perda mensal de aproximadamente US$ 300
No entanto, a Anthropic afirma que menos de 5% dos usuários atingem o limite de tokens
- Usuários comuns ficam, em média, em menos de 50% do uso de tokens
Segundo os dados de /cost da Anthropic, o usuário médio tem cerca de US$ 6 por dia em uso equivalente de API, e 90% ficam abaixo de US$ 12
- Em custo real, isso dá cerca de US$ 18 por mês, o que permite rentabilidade diante de assinaturas de US$ 20 a US$ 200

Diferença de custo em relação à Cursor

O número de US$ 5 mil vem de uma análise interna da Cursor
- A Cursor precisa usar o Opus 4.6 da Anthropic pelo preço de varejo da API
Por isso, do ponto de vista da Cursor, pode haver um custo mensal de US$ 5 mil por usuário avançado
- Já o custo real da Anthropic estaria em torno de US$ 500
A Cursor está tendo dificuldades porque desenvolvedores preferem os modelos da Anthropic

A estrutura de lucro da Anthropic e o mal-entendido

A Anthropic continua operando no vermelho no total por causa de custos de treinamento, pessoal e grandes investimentos em compute
Porém, o custo de inferência por token provavelmente tem alta rentabilidade
A ideia de que “inferência de IA é um negócio deficitário” justifica margens excessivas nas APIs e reduz a concorrência
Para entender a economia real da inferência, faz mais sentido olhar os preços públicos de modelos no OpenRouter
- Eles representam apenas uma fração do custo cobrado nas APIs das grandes empresas de IA

1 comentários

GN⁺ 2026-03-11

Comentários do Hacker News

Comparar o Qwen 3.5 397B-A17B com os modelos da Anthropic é uma comparação sem pé nem cabeça
Modelos chineses como Qwen ou DeepSeek são conhecidos por serem mais de 10x mais eficientes que os da Anthropic
É por isso também que a diferença entre os preços do OpenRouter e os preços oficiais não é tão grande. Além disso, não está claro quais técnicas de quantização (quantization) os provedores do OpenRouter usam. Na prática, talvez entreguem eficiência 100x maior
Claro, nem todo usuário usa o plano no máximo, então não há prejuízo de US$ 5.000 por usuário
- Isso é raciocínio circular. O motivo para acreditar que os modelos chineses são 10x mais eficientes é apenas o fato de serem 10x mais baratos
  Se olhar os números de t/s do Opus 4.5 no Amazon Bedrock e dos modelos chineses, eles ficam em nível parecido, então o número de parâmetros ativos real também é semelhante
  No OpenRouter, você também pode escolher diretamente provedores BF16 ou Q8
- Concordo, mas é bem provável que o Opus 4.6 seja um modelo 10x maior. O GPT-4 já é um modelo de 1,6T e o Llama 4 também é muito maior
  As empresas chinesas têm escassez de GPU, mas conseguiram muitas inovações em eficiência de inferência. O CEO da DeepSeek, Liang, também aparece como autor em artigos da área
- Não faz sentido comparar um modelo open source como o Qwen com a Anthropic
  A Anthropic nunca divulgou a arquitetura do modelo nem o número de parâmetros
  A maioria dos modelos open source reduz custo computacional destilando outros modelos ou usando MoE
  É difícil confiar em um post de blog que usa o Qwen como referência de comparação
- O Opus pode ter alcançado custo mais baixo usando TPU
- A seção de provedores do OpenRouter mostra as informações de quantização
Segundo a matéria original, no ano passado a Cursor estimava que uma assinatura do Claude Code de US$ 200 por mês consumia até US$ 2.000 em computação
Agora esse subsídio ficou ainda maior, e dizem que o mesmo plano pode consumir cerca de US$ 5.000 em computação
- Houve reação do tipo: “isso muda tudo”
Muita gente acredita que OpenAI e Anthropic vendem tokens no prejuízo, mas quase não há evidência real disso
Esse meme se espalhou por causa de uma matéria imprecisa da Forbes. O texto nem sequer entende a diferença entre custo de API e custo de computação
- Mas também é difícil afirmar com certeza que não existe evidência de venda no prejuízo
  Vendo que a Anthropic bloqueia uso fora do CC e que o limite de gasto da API é de US$ 5.000, é possível que a rentabilidade seja baixa
- Também há quem diga: “como uma empresa que só vende tokens não teria prejuízo?”
  Custos de pesquisa, treinamento, infraestrutura e pessoal também deveriam entrar no custo de geração de tokens
  O preço baixo dos modelos open weight existe por dumping para ganhar participação de mercado, e o custo real seria maior
  No fim, essa estrutura não deve se sustentar por muito tempo
- Mais importante do que saber se a Anthropic perde dinheiro por token é entender quanto custa o treinamento
  Se o modelo não continuar sendo treinado, o valor do token cai
- Como referência, a documentação relacionada está aqui
Se nossa equipe usasse o Claude Code via API, gastaria US$ 200 mil por mês, mas na prática pagamos só US$ 1.400 por mês com assinaturas Max
Dá algo como US$ 50 mil por usuário, mas olhando a quantidade de tokens JSON, parece que a maior parte são requisições em cache, então o custo real provavelmente é bem menor
- Fico curioso sobre como distribuem o trabalho de forma tão eficiente. Eu também uso muito o Claude, mas bato no limite rápido
- O Gemini CLI mostra a taxa de economia por cache por sessão, e normalmente fica em torno de 90%
- Eu também rodo vários agentes Claude, e 85% dos tokens de entrada são leituras de cache
  O custo real provavelmente fica na faixa de US$ 25 mil a US$ 30 mil. A estimativa de US$ 5 mil da Forbes é exagerada
- Com npx ccusage, dá para checar os logs locais e calcular o custo com base na API
- Mas fico me perguntando se usar o plano Max para fins empresariais não seria violação dos termos de uso
Se a computação da Anthropic estiver totalmente saturada, usuários pesados do Claude Code podem gerar um custo de oportunidade de US$ 5.000 por usuário
Mas esse tipo de comparação é tão inadequado quanto comparar a quantidade de engrenagens de um Rolex com a de um relógio sem marca
- Custo de oportunidade não é custo real. O ponto central é se a Anthropic está de fato tão saturada a ponto de não conseguir vender assinaturas
- Quanto mais a fazenda de GPUs for utilizada, mais o efeito de batching reduz o custo unitário
- A indústria do entretenimento também adora usar o termo “custo de oportunidade”, mas na prática o que acontece é queda de consumo
  Com a Anthropic pode ocorrer o mesmo: usuários podem questionar a qualidade incerta ou migrar para cobrança baseada em API
- Também apareceu a piada: “espero que minha situação de usar Opus à vontade por uma assinatura de US$ 100 continue assim”
Custo de inferência e margem de lucro variam bastante entre modelos open weight e grandes provedores de nuvem
É algo parecido com a diferença entre custos de P&D na indústria farmacêutica e custo de produção de genéricos
A margem de inferência da OpenAI é estimada em cerca de 70%, e a da Anthropic em 40% a 90%
Artigos relacionados: Phemex, SaaStr, The Information, Investing.com
- Houve quem dissesse que não se deve usar a palavra “lucro (profit)” com tanta facilidade
  Pelos critérios contábeis, a receita por modelo já pode ter compensado o custo de treinamento
  Mas, em fluxo de caixa, a empresa ainda não seria cashflow positive
  Se não se entende essa diferença, acaba-se subestimando toda a indústria de IA
Não há certeza sobre qual seria o tamanho do modelo do Opus 4.6
A suposição é de que seja muito maior que o Qwen397B
- Como Musk disse que o Grok tem trilhões de parâmetros, é possível que o Opus também esteja nessa faixa
  A Anthropic provavelmente está ganhando dinheiro com API, mas talvez não com margem de 90%
- No OpenRouter, o DeepSeek v3.2 (685B/37B active) custa US$ 0,26/0,40, e o Kimi K2.5 (1T/32B active) custa US$ 0,45/2,25
- Um especialista provavelmente estimaria que o Opus tem 1 a 2 trilhões de parâmetros
Cache é quase praticamente de graça, mas na realidade não é totalmente gratuito
Tirando o custo dos tokens de cache, o uso real de computação de uma assinatura de US$ 200 cai para algo em torno de US$ 800
A maior parte da computação provavelmente fica ociosa
- Mas cache não é totalmente grátis porque continua ocupando RAM
  Se o cache não for aproveitado, isso gera custo de oportunidade
- Graças ao cache, é possível vender inferência para mais usuários a preço premium, então ele funciona na prática como um mecanismo de maximização de receita
- Se essa computação não estivesse ociosa, o recurso também poderia ser usado em treinamento de modelo ou experimentos de pesquisa
A Cursor precisa usar o Opus 4.6 com o preço de API de varejo da Anthropic, então pode acabar pagando US$ 5.000 por mês por usuário pesado
Já o custo real da Anthropic provavelmente ficaria na faixa de US$ 500
Ouvi recentemente no podcast do Swix sobre a estratégia de agentes em nuvem da Cursor, e a barreira de entrada está caindo
A assinatura do Claude está mais próxima de um conceito de spot instance
A API é o serviço on-demand, e a prioridade está na API
A computação que sobra é alocada aos usuários de assinatura, e, se faltar capacidade, o tráfego é roteado para modelos quantizados mais baratos
Esse tipo de assinatura aproveita recursos ociosos e também ajuda a melhorar a qualidade do treinamento do modelo com fluxos de trabalho previsíveis
Já usei Qwen Code, Codex e Claude, e o Codex foi 2x melhor que o Qwen, enquanto o Claude foi 2x melhor que o Codex
Por isso, eu esperaria que o Claude Opus custasse de 4x a 5x mais que o Qwen Code
- Dizer que “Claude é 2x melhor que Codex” não é verdade hoje
- A parte de “se faltar capacidade, é roteado para modelos mais baratos” nunca foi anunciada oficialmente

A alegação de que o Claude Code custa US$ 5 mil por usuário para a Anthropic não é verdadeira

Verificando a alegação de US$ 5 mil da Forbes

Estimativa do custo real de compute

O custo real dos usuários do Claude Code Max

Diferença de custo em relação à Cursor

A estrutura de lucro da Anthropic e o mal-entendido

Leituras relacionadas

1 comentários

Comentários do Hacker News