1 pontos por GN⁺ 2026-03-11 | 1 comentários | Compartilhar no WhatsApp
  • O cálculo de US$ 5 mil do plano Claude Code Max citado pela Forbes usa como base o preço de varejo da API, e não o custo real de compute
  • Comparando os preços dos modelos Qwen 3.5 397B e Kimi K2.5 no OpenRouter, modelos de escala semelhante estão sendo operados por cerca de um décimo da tarifa da API da Anthropic
  • Com esse critério, o custo real estimado da Anthropic seria de cerca de US$ 500, ou seja, uma perda mensal de apenas US$ 300 para alguns usuários de uso intenso
  • A maioria dos usuários não atinge o limite de tokens e, com base no uso médio, a estrutura é de equilíbrio ou lucro
  • A percepção de que o custo de inferência de IA é excessivo é um equívoco e vem sendo usada para justificar as altas margens de API das grandes empresas de IA

Verificando a alegação de US$ 5 mil da Forbes

  • Em uma matéria sobre a Cursor, a Forbes citou que o plano de US$ 200 da Anthropic permite até US$ 5 mil em uso de compute
    • A citação foi apresentada como a fala de “alguém que viu uma análise dos padrões de uso de compute da empresa”
  • Esse número é um cálculo baseado no preço de varejo da API, não no custo real de compute
  • A API do Opus 4.6 da Anthropic é cobrada em US$ 5 por 1 milhão de tokens de entrada e US$ 25 por 1 milhão de tokens de saída
    • Nessa tarifa, usuários muito intensivos podem chegar a US$ 5 mil em uso mensal de API

Estimativa do custo real de compute

  • No OpenRouter, o modelo Qwen 3.5 397B-A17B de escala semelhante custa cerca de US$ 0,39 por 1 milhão de tokens de entrada e US$ 2,34 por saída
    • O modelo Kimi K2.5 é ainda mais barato, com US$ 0,45 na entrada e US$ 2,25 na saída
  • Isso representa um valor cerca de 10 vezes menor do que a tarifa da API da Anthropic
  • O custo de tokens em cache também difere em proporção semelhante
    • Ex.: o custo de leitura de cache do Kimi K2.5 na DeepInfra é de US$ 0,07/MTok, enquanto na Anthropic é de US$ 0,50/MTok
  • Portanto, o custo real de compute pode ser estimado em cerca de 10% do valor cobrado na API

O custo real dos usuários do Claude Code Max

  • Um usuário que consome tokens equivalentes a US$ 5 mil no preço da API teria um custo real de cerca de US$ 500
    • Nesse caso, a Anthropic teria uma perda mensal de aproximadamente US$ 300
  • No entanto, a Anthropic afirma que menos de 5% dos usuários atingem o limite de tokens
    • Usuários comuns ficam, em média, em menos de 50% do uso de tokens
  • Segundo os dados de /cost da Anthropic, o usuário médio tem cerca de US$ 6 por dia em uso equivalente de API, e 90% ficam abaixo de US$ 12
    • Em custo real, isso dá cerca de US$ 18 por mês, o que permite rentabilidade diante de assinaturas de US$ 20 a US$ 200

Diferença de custo em relação à Cursor

  • O número de US$ 5 mil vem de uma análise interna da Cursor
    • A Cursor precisa usar o Opus 4.6 da Anthropic pelo preço de varejo da API
  • Por isso, do ponto de vista da Cursor, pode haver um custo mensal de US$ 5 mil por usuário avançado
    • Já o custo real da Anthropic estaria em torno de US$ 500
  • A Cursor está tendo dificuldades porque desenvolvedores preferem os modelos da Anthropic

A estrutura de lucro da Anthropic e o mal-entendido

  • A Anthropic continua operando no vermelho no total por causa de custos de treinamento, pessoal e grandes investimentos em compute
  • Porém, o custo de inferência por token provavelmente tem alta rentabilidade
  • A ideia de que “inferência de IA é um negócio deficitário” justifica margens excessivas nas APIs e reduz a concorrência
  • Para entender a economia real da inferência, faz mais sentido olhar os preços públicos de modelos no OpenRouter
    • Eles representam apenas uma fração do custo cobrado nas APIs das grandes empresas de IA

1 comentários

 
GN⁺ 2026-03-11
Comentários do Hacker News
  • Comparar o Qwen 3.5 397B-A17B com os modelos da Anthropic é uma comparação sem pé nem cabeça
    Modelos chineses como Qwen ou DeepSeek são conhecidos por serem mais de 10x mais eficientes que os da Anthropic
    É por isso também que a diferença entre os preços do OpenRouter e os preços oficiais não é tão grande. Além disso, não está claro quais técnicas de quantização (quantization) os provedores do OpenRouter usam. Na prática, talvez entreguem eficiência 100x maior
    Claro, nem todo usuário usa o plano no máximo, então não há prejuízo de US$ 5.000 por usuário

    • Isso é raciocínio circular. O motivo para acreditar que os modelos chineses são 10x mais eficientes é apenas o fato de serem 10x mais baratos
      Se olhar os números de t/s do Opus 4.5 no Amazon Bedrock e dos modelos chineses, eles ficam em nível parecido, então o número de parâmetros ativos real também é semelhante
      No OpenRouter, você também pode escolher diretamente provedores BF16 ou Q8
    • Concordo, mas é bem provável que o Opus 4.6 seja um modelo 10x maior. O GPT-4 já é um modelo de 1,6T e o Llama 4 também é muito maior
      As empresas chinesas têm escassez de GPU, mas conseguiram muitas inovações em eficiência de inferência. O CEO da DeepSeek, Liang, também aparece como autor em artigos da área
    • Não faz sentido comparar um modelo open source como o Qwen com a Anthropic
      A Anthropic nunca divulgou a arquitetura do modelo nem o número de parâmetros
      A maioria dos modelos open source reduz custo computacional destilando outros modelos ou usando MoE
      É difícil confiar em um post de blog que usa o Qwen como referência de comparação
    • O Opus pode ter alcançado custo mais baixo usando TPU
    • A seção de provedores do OpenRouter mostra as informações de quantização
  • Segundo a matéria original, no ano passado a Cursor estimava que uma assinatura do Claude Code de US$ 200 por mês consumia até US$ 2.000 em computação
    Agora esse subsídio ficou ainda maior, e dizem que o mesmo plano pode consumir cerca de US$ 5.000 em computação

    • Houve reação do tipo: “isso muda tudo”
  • Muita gente acredita que OpenAI e Anthropic vendem tokens no prejuízo, mas quase não há evidência real disso
    Esse meme se espalhou por causa de uma matéria imprecisa da Forbes. O texto nem sequer entende a diferença entre custo de API e custo de computação

    • Mas também é difícil afirmar com certeza que não existe evidência de venda no prejuízo
      Vendo que a Anthropic bloqueia uso fora do CC e que o limite de gasto da API é de US$ 5.000, é possível que a rentabilidade seja baixa
    • Também há quem diga: “como uma empresa que só vende tokens não teria prejuízo?”
      Custos de pesquisa, treinamento, infraestrutura e pessoal também deveriam entrar no custo de geração de tokens
      O preço baixo dos modelos open weight existe por dumping para ganhar participação de mercado, e o custo real seria maior
      No fim, essa estrutura não deve se sustentar por muito tempo
    • Mais importante do que saber se a Anthropic perde dinheiro por token é entender quanto custa o treinamento
      Se o modelo não continuar sendo treinado, o valor do token cai
    • Como referência, a documentação relacionada está aqui
  • Se nossa equipe usasse o Claude Code via API, gastaria US$ 200 mil por mês, mas na prática pagamos só US$ 1.400 por mês com assinaturas Max
    Dá algo como US$ 50 mil por usuário, mas olhando a quantidade de tokens JSON, parece que a maior parte são requisições em cache, então o custo real provavelmente é bem menor

    • Fico curioso sobre como distribuem o trabalho de forma tão eficiente. Eu também uso muito o Claude, mas bato no limite rápido
    • O Gemini CLI mostra a taxa de economia por cache por sessão, e normalmente fica em torno de 90%
    • Eu também rodo vários agentes Claude, e 85% dos tokens de entrada são leituras de cache
      O custo real provavelmente fica na faixa de US$ 25 mil a US$ 30 mil. A estimativa de US$ 5 mil da Forbes é exagerada
    • Com npx ccusage, dá para checar os logs locais e calcular o custo com base na API
    • Mas fico me perguntando se usar o plano Max para fins empresariais não seria violação dos termos de uso
  • Se a computação da Anthropic estiver totalmente saturada, usuários pesados do Claude Code podem gerar um custo de oportunidade de US$ 5.000 por usuário
    Mas esse tipo de comparação é tão inadequado quanto comparar a quantidade de engrenagens de um Rolex com a de um relógio sem marca

    • Custo de oportunidade não é custo real. O ponto central é se a Anthropic está de fato tão saturada a ponto de não conseguir vender assinaturas
    • Quanto mais a fazenda de GPUs for utilizada, mais o efeito de batching reduz o custo unitário
    • A indústria do entretenimento também adora usar o termo “custo de oportunidade”, mas na prática o que acontece é queda de consumo
      Com a Anthropic pode ocorrer o mesmo: usuários podem questionar a qualidade incerta ou migrar para cobrança baseada em API
    • Também apareceu a piada: “espero que minha situação de usar Opus à vontade por uma assinatura de US$ 100 continue assim”
  • Custo de inferência e margem de lucro variam bastante entre modelos open weight e grandes provedores de nuvem
    É algo parecido com a diferença entre custos de P&D na indústria farmacêutica e custo de produção de genéricos
    A margem de inferência da OpenAI é estimada em cerca de 70%, e a da Anthropic em 40% a 90%
    Artigos relacionados: Phemex, SaaStr, The Information, Investing.com

    • Houve quem dissesse que não se deve usar a palavra “lucro (profit)” com tanta facilidade
      Pelos critérios contábeis, a receita por modelo já pode ter compensado o custo de treinamento
      Mas, em fluxo de caixa, a empresa ainda não seria cashflow positive
      Se não se entende essa diferença, acaba-se subestimando toda a indústria de IA
  • Não há certeza sobre qual seria o tamanho do modelo do Opus 4.6
    A suposição é de que seja muito maior que o Qwen397B

    • Como Musk disse que o Grok tem trilhões de parâmetros, é possível que o Opus também esteja nessa faixa
      A Anthropic provavelmente está ganhando dinheiro com API, mas talvez não com margem de 90%
    • No OpenRouter, o DeepSeek v3.2 (685B/37B active) custa US$ 0,26/0,40, e o Kimi K2.5 (1T/32B active) custa US$ 0,45/2,25
    • Um especialista provavelmente estimaria que o Opus tem 1 a 2 trilhões de parâmetros
  • Cache é quase praticamente de graça, mas na realidade não é totalmente gratuito
    Tirando o custo dos tokens de cache, o uso real de computação de uma assinatura de US$ 200 cai para algo em torno de US$ 800
    A maior parte da computação provavelmente fica ociosa

    • Mas cache não é totalmente grátis porque continua ocupando RAM
      Se o cache não for aproveitado, isso gera custo de oportunidade
    • Graças ao cache, é possível vender inferência para mais usuários a preço premium, então ele funciona na prática como um mecanismo de maximização de receita
    • Se essa computação não estivesse ociosa, o recurso também poderia ser usado em treinamento de modelo ou experimentos de pesquisa
  • A Cursor precisa usar o Opus 4.6 com o preço de API de varejo da Anthropic, então pode acabar pagando US$ 5.000 por mês por usuário pesado
    Já o custo real da Anthropic provavelmente ficaria na faixa de US$ 500
    Ouvi recentemente no podcast do Swix sobre a estratégia de agentes em nuvem da Cursor, e a barreira de entrada está caindo

  • A assinatura do Claude está mais próxima de um conceito de spot instance
    A API é o serviço on-demand, e a prioridade está na API
    A computação que sobra é alocada aos usuários de assinatura, e, se faltar capacidade, o tráfego é roteado para modelos quantizados mais baratos
    Esse tipo de assinatura aproveita recursos ociosos e também ajuda a melhorar a qualidade do treinamento do modelo com fluxos de trabalho previsíveis
    Já usei Qwen Code, Codex e Claude, e o Codex foi 2x melhor que o Qwen, enquanto o Claude foi 2x melhor que o Codex
    Por isso, eu esperaria que o Claude Opus custasse de 4x a 5x mais que o Qwen Code

    • Dizer que “Claude é 2x melhor que Codex” não é verdade hoje
    • A parte de “se faltar capacidade, é roteado para modelos mais baratos” nunca foi anunciada oficialmente