Apple Silicon custa mais do que OpenRouter

(williamangel.net)

3 pontos por GN⁺ 2026-05-18 | 2 comentários | Compartilhar no WhatsApp

O custo da inferência local é impactado mais pelo preço do dispositivo do que pela conta de energia, e o modelo M5 Max MacBook Pro 64GB foi calculado em $4,299
Um notebook com Apple Silicon sob carga consome 50~100W, e com eletricidade a $0.20 por kWh, o custo diário de energia fica em cerca de $0.48
O Gemma4:31b foi observado no M5 Max em 10~40 tokens por segundo, o que leva a um custo de cerca de $0.40~$4.79 por milhão de tokens
O Gemma4 31b no OpenRouter custa cerca de $0.38~$0.50 por milhão de tokens, então só fica parecido com o MacBook Pro Max em condições muito otimistas
Em geral, a inferência local é mais cara e mais lenta do que no OpenRouter, e do ponto de vista contábil faz sentido considerar o custo do Pro Max em cerca de 3 vezes por milhão de tokens

Cálculo do custo da inferência local

A tarifa de energia é de $0.18 por kWh com base em uma conta recente de Northern Virginia, mas no cálculo foi arredondada para cima para $0.20 por kWh
A tarifa média residencial de energia nos EUA em 2025 segundo a EIA é de $0.1730 por kWh
Se um notebook com Apple Silicon consome 50~100W sob carga, o custo de eletricidade fica em $0.009~$0.018 por hora, e pode ser estimado em cerca de $0.02 por hora
Mesmo mantendo a inferência em 100% continuamente, o custo de energia fica em torno de $0.48 por dia
O modelo de 14 polegadas M5 Max MacBook Pro com 64GB custa $4,299 no site da Apple, e 64GB é considerado suficiente para rodar modelos como o Gemma 4 31b
Dividindo a vida útil do hardware em 3, 5 e 10 anos, o custo anual fica em $1,433, $860 e $430, respectivamente
O custo de hardware por hora é calculado em $0.16358 para 3 anos, $0.09815 para 5 anos e $0.04908 para 10 anos
Em uso comum, 5 anos é uma estimativa razoável de vida útil, e 7 ou 10 anos também são possíveis, mas sob carga máxima de inferência até 3 anos pode ser uma estimativa plausível

Custo por token e comparação com o OpenRouter

A principal variável no custo de um modelo local é o número de tokens que ele consegue gerar por hora, e nos testes com o M5 Max modelos como o Gemma4:31b ficaram na faixa de 10~40 tokens por segundo
A 10 tokens por segundo, isso equivale a 36,000 tokens por hora, e com vida útil de 3~10 anos e eletricidade a $0.18 por kWh, o custo por milhão de tokens fica em $1.61~$4.79
A 40 tokens por segundo, isso equivale a 144,000 tokens por hora, e o custo por milhão de tokens cai para $0.40~$1.20
No Apple Silicon, o custo de hardware pesa mais no custo total do que a conta de energia
O preço do Gemma4 31b no OpenRouter é de cerca de $0.38~$0.50 por milhão de tokens
Em condições otimistas de 50W, 40 tokens por segundo e 10 anos de uso, o MacBook Pro Max cai para um custo parecido com o do OpenRouter
Em condições pessimistas de 100W, 10 tokens por segundo e 3 anos de uso, o MacBook Pro Max fica 10 vezes mais caro do que o OpenRouter
Do ponto de vista contábil, é razoável estimar o custo da inferência local no Pro Max em cerca de 3 vezes o do OpenRouter por milhão de tokens
Na maioria dos casos, a velocidade de inferência é uma variável mais importante do que o custo, e a inferência local é mais lenta do que a inferência em nuvem
Alguns provedores de Gemma 4 no OpenRouter chegam a 60~70 tokens por segundo, ou seja, 3~7 vezes mais rápido do que os 10~20 tokens por segundo observados no Pro Max
O custo salarial de um funcionário usando um notebook de trabalho é cerca de 1000 vezes maior do que o custo dos tokens gerados localmente, então, nesse contexto, faz mais sentido gastar com Anthropic
Ainda assim, continua sendo surpreendente que um dispositivo de consumo consiga rodar um modelo com desempenho próximo ao Anthropic Sonnet

2 comentários

jjw9512151 2026-05-20

Como o OpenRouter obviamente roda em hardware otimizado em data center, ele é mais rápido, mas também não chega a tirar algo como 200 tokens/s..

GN⁺ 2026-05-18

Comentários no Hacker News

Esta análise não é muito boa, porque continua arredondando tudo para cima. Superestima a conta de luz em 10%, escolhe o limite superior da faixa de consumo de energia, que é o dobro do valor mais baixo, e depois multiplica isso pela tarifa de energia inflada
Além disso, parte da premissa de rodar um Mac novo para inferência 24 horas por dia sob carga máxima. Por que faria isso? Apple Silicon é rápido, mas, como o próprio autor observa, algo como 10–40 tokens por segundo; não é ruim, mas também não foi feito para isso
Datacenters não pagam tarifa residencial de energia, usam chips com melhor eficiência energética e usam chips que não foram projetados para ser Macs. Apple Silicon fica bem interessante se você não estiver queimando tokens 24/7/365 e não comprar hardware novo só para isso. Dá para usar um Mac Studio algumas vezes por semana no que você precisa e rodar o ollama “quase de graça” por uma tailnet. Faz sentido economicamente quando você não tenta usar um Mac Studio como se fosse um cluster H100 com refrigeração líquida, e é óbvio que hardware multitenant com energia barata e mais tokens por watt quase sempre vai ganhar
- Mesmo reduzindo tudo para o cenário mais otimista, ainda deu $0,40 por milhão de tokens, e no OpenRouter o mesmo modelo custa $0,38/milhão de tokens
- O texto em si não faz sentido. Você não pode usar o OpenRouter como computador de uso geral, então por que comparar um computador inteiro com um SaaS de propósito único?
- Não sei de onde saiu esse número de 40 tokens por segundo. Num M5 Max 128GB rodando Gemma 4 31B, já vi 95–100 tokens por segundo. Também já fiz testes em que ele foi mais rápido que o Claude Opus 4.5 com o mesmo prompt
- Na verdade, calcular como se você estivesse gerando tokens 24 horas por dia é o melhor caso. Se calcular com 8 horas de uso real por dia, o custo fixo do hardware continua sendo a maior parte do orçamento, mas os tokens gerados caem para 1/3, então o custo por token triplica
Se não entendi errado, esse cálculo está colocando o preço total do notebook no custo de geração de tokens. Parece ignorar que, em troca do dinheiro, você recebe não só a saída do LLM, mas também o notebook
Se a ideia é deixar a máquina num canto escuro e rodá-la apenas como servidor devorador de tokens, então um notebook é realmente uma péssima escolha tecnológica para esse objetivo. Mas se você pretende usar o notebook como notebook, o fato de ganhar um notebook é uma vantagem enorme em relação a não ganhar nada
Você também ganha privacidade, liberdade contra censura e controle sobre o modelo usado. Dá para evitar a situação em que você monta um workflow em torno das características de um modelo e, três meses depois, ele simplesmente desaparece
- Uma métrica melhor talvez seja a diferença de preço entre o notebook necessário para rodar modelos localmente e o notebook que você compraria de qualquer forma
- Você ganha controle sobre o modelo, mas perde acesso aos modelos de melhor desempenho e fica limitado a modelos menores
- Você não recebe só a saída do LLM, recebe também o notebook, e, se for um Mac, ainda deve sobrar um bom valor de revenda na hora de trocar
- Você não consegue rodar Cyberpunk 2077 em 5K HDR no máximo com o OpenRouter
- O post original, na verdade, mostra o melhor cenário absoluto comparado ao pessoal obcecado em acumular Macs
  Um número absurdamente grande dessas pessoas gastou mais de $10.000 em Mac Studio e ainda assim continua com gargalo de computação, além de haver poucas opções mais eficientes que Gemma 4
As empresas de IA de fronteira estão vendendo no prejuízo
Mesmo deixando de lado o que u/bastawhiz disse[0], Claude, OpenAI, Gemini etc. estão literalmente queimando centenas de bilhões de dólares e revendendo algo de $1 por alguns centavos, na esperança de serem as últimas a sobreviver
Se eu gasto $10 para cultivar uma laranja e vendo por $1, obviamente vai parecer que cultivar você mesmo é mais caro. Esses modelos inevitavelmente vão ficar mais caros com o tempo; eles só estão tentando dominar o mercado antes de parar com essa venda com enorme prejuízo
[0]: https://news.ycombinator.com/item?id=48168433
- Isso parece improvável. Há muitos fornecedores no OpenRouter oferecendo modelos abertos, e é difícil acreditar que todos estejam perdendo dinheiro em cada token vendido
  Além disso, existem razões técnicas pelas quais a inferência fica muito mais eficiente em escala
- O blog compara o custo de executar Gemma4 31B, e no OpenRouter esse modelo é oferecido não por empresas de IA de fronteira, mas por pequenos provedores de inferência pouco conhecidos. Parece uma comparação bastante justa
- Ainda assim, há muito mais eficiência de escala possível. Com minha carga de trabalho atual, não consigo manter um modelo local 24 horas por dia com 98% de utilização, mas uma grande nuvem consegue. Também não consigo alimentar meu servidor diretamente em corrente contínua, e ainda tenho a ineficiência de converter CA em CC. E por aí vai
- Isso não é verdade. Tokens de API não estão sendo vendidos no prejuízo, e o hardware fica mais eficiente com o tempo, então o custo de fornecer inferência para o mesmo modelo cai
  LLAMA 3.1 405B custava $6/$12 por milhão de tokens em 2024, mas em 2026 o mesmo modelo custa $3/$3. O custo por token do GPT5.5 é maior que o do 5.4 porque o modelo mais inteligente de cada momento costuma ser muito maior que o anterior. Mas, daqui a 2 anos, é provável que o custo de oferecer um modelo do tamanho do GPT5.5 seja menor do que o do GPT5.5 hoje. Técnicas de destilação são eficazes em reduzir o número de parâmetros necessários para atingir as mesmas pontuações em benchmarks, então daqui a 2 anos deve ser possível obter o mesmo nível de inteligência por menos
- Há alguma evidência disso? O CEO da Anthropic disse que a empresa está no lucro, e a OpenAI falou o mesmo
Se você quer um bom modelo denso, é melhor usar qwen3.6 27B. É mais rápido e, se você não confiar em mim quando digo que também é mais inteligente, então o preço no OpenRouter comparado a um Gemma maior, mais lento e menos eficiente em memória fala por si
Se quiser um modelo mais rápido, basta usar qwen3.6 35B. Se os modelos Gemma se encaixam melhor no seu trabalho, então também dá para usar gemma 4 26B. Há uma razão para as pessoas, inclusive eu, continuarem falando desses dois, especialmente do 27B. É pequeno o bastante para rodar em velocidade aceitável e, finalmente, ainda mais por causa do MTP embutido com suporte oficial no llama.cpp, e em muitas cargas de trabalho e em todos os benchmarks que testei ele iguala ou supera modelos que em tese não deveria vencer
Alguns dias atrás acordei sem internet, subi o 27B no pi, passei a senha do roteador e pedi para diagnosticar o problema. Quando voltei com o café, havia um relatório completo incluindo sugestões de como prosseguir. Eu gosto do OpenRouter e o uso para várias coisas, mas ele não sai mais barato
Claro, tudo isso inclui subjetividade baseada na minha experiência pessoal usando todos esses modelos. Pode haver casos em que o Gemma 31B leve vantagem, mas eu não encontrei nenhum, e venho rodando esses 4 modelos em várias tarefas desde poucas horas depois do lançamento de cada um. No meu hermes, inclusive, trocar gemma 4 26B por qwen3.5 9B melhorou os resultados, e isso nem era a série 3.6, que melhorou bastante. Fazer esse tipo de análise sem usar os modelos considerados estado da arte atual em hardware de consumo parece antiquado ou cherry-picking
- Sim. O Qwen 3.6 45b(6 parameter) roda numa RTX 5090 comum, e, se você gosta de jogos, há uma boa chance de já ter uma. Para a maioria das tarefas de geração de código, é plenamente utilizável
  Da mesma forma, o DeepSeek V4 Flash também é bastante acessível como modelo local, e com DwarfStar 4 dá para rodar tranquilamente num MacBook de 96GB
  Pagar por inferência em si não é o problema, mas modelos locais abrem possibilidades realmente impressionantes, como uso totalmente offline, processamento de dados com informações de identificação pessoal ou protegidos por sigilo legal, e trabalhos em que você não precisa se preocupar nem um pouco com estouro de cobrança
  Outro ponto é que você pode criar um serviço com confiança de que ele continuará funcionando 100% do tempo sem se preocupar com interrupções ou encerramento do serviço. Modelos de fronteira hoje têm esse problema. Minha configuração local com Qwen é totalmente previsível e continuará funcionando enquanto eu puder conseguir o hardware para rodá-la
  A estratégia racional é usar os dois. Tenha ferramentas de inferência local e use junto modelos baratos e caros na nuvem. Use GPT-5.5 e Opus-4.7 para o que eles fazem bem, como tarefas de raciocínio mais difíceis; use o segundo mais barato via assinatura Claude; para tarefas um pouco menos exigentes, use DeepSeek V4 Pro; para a maior parte da geração de código, V4 Flash; e para o que exigir modelo local, use um modelo local
- Concordo com a tese, mas não sei se essa leitura do preço do qwen3.6 27B está correta
  Esses fornecedores parecem estar seguindo o preço primário do 27B Dense da Alibaba e, pessoalmente, acho meio caro. Pode ser porque os modelos Qwen têm eficiência de inferência menor que os modelos de fronteira ou que o Gemma, e porque oferecer comprimentos de sequência longos custa caro
- Fico curioso sobre como as pessoas estão avaliando modelos quantizados entre si. Ainda não encontrei um benchmark de que eu goste
  O exemplo de depuração com o 27B é bom. Depois de comprar um Mac com 4x mais memória, tive sucesso parecido, e o Qwen 35B A3B de repente passou a se sair muito bem. O 9B no notebook era difícil de chamar de bom
Há muitos comentários aqui tratando dos problemas da análise original, mas em relação à conclusão mais ampla, para bastante gente isso parece quase uma “diferença sem diferença”. Tirando privacidade, olhando só para custo e desempenho, para um desenvolvedor individual geralmente é melhor usar um serviço hospedado do que hospedar por conta própria
No trabalho, o empregador paga os tokens, e fora do trabalho a maioria dos desenvolvedores acha suficiente uma assinatura mensal de $20/$100/$200 do provedor que preferirem. Do ponto de vista puro de custo-benefício, não são muitos os desenvolvedores para quem rodar modelos localmente faz sentido
Mais importante ainda, configurar modelos locais na prática parece mais uma questão de hobby, aprendizado ou controle de privacidade do que de economizar dinheiro ou aumentar produtividade
- A computação estilo mainframe com que os criadores de modelos sonham não vai voltar, não importa o que OpenAI, Google, Anthropic ou Microsoft queiram. Há bárbaros tecnológicos inteligentes demais querendo entrar pela porta, e eles não vão aceitar voltar para a era dos terminais de computador
  O computador pessoal encerrou a era anterior dos terminais, a maioria daquelas empresas desapareceu, e só sobraram a IBM e algumas outras sobreviventes, mas como sombras do que já foram
O autor comparou só o custo dos tokens de saída, mas em cargas de trabalho típicas de agentes os tokens de entrada representam uma parte grande do custo. Na inferência local, os tokens de entrada são essencialmente grátis
Você só passa a ter custos implícitos, como maior latência até o primeiro token, maior consumo de energia e menor velocidade de tokens de saída
- Sim, esse ponto destrói completamente a tese do autor
  Olhei algumas sessões aleatórias de agente na minha atividade do OpenRouter e o custo de entrada era 10x o custo de saída. O cache de prompt do OpenRouter é complexo e difícil de confiar, mas no llama-cpp em hardware local ele é praticamente de graça na maior parte do tempo
- Mesmo ignorando o melhor cache da configuração local, hardware Mac muitas vezes processa tokens de entrada cerca de 10x mais rápido do que tokens de saída. No OpenRouter, a diferença para o mesmo modelo parece ficar em torno de 2x
Se você fizer escolhas inteligentes, não é assim. Um MacBook M5 Max 128GB é um notebook premium de 6 mil dólares, mas é capaz de fazer muita coisa e vira uma ótima máquina principal para o dia inteiro
Além disso, você pode rodar DeepSeek V4 Flash e executar localmente, sem censura nem restrições, sem internet e com dados pessoais muito sensíveis, tarefas nada triviais. É um bom negócio. Se você comprar um setup com dois Mac Studio 512GB por $25.000 para tentar abandonar OpenAI e cia., vai se decepcionar tanto em desempenho quanto em custo
- A escolha inteligente é comprar um MacBook de cerca de 48GB para uso diário e reservar uns $800 por ano para assinaturas de IA ou tokens. Aí, no fim, o custo fica na mesma faixa
  Como autor do blog, estou escrevendo isto num MacBook M5 Max 128GB
- Meu M4 Max 128GB acabou sendo uma escolha bem razoável. Faço edição de vídeo, treino de modelos de machine learning, executo grandes modelos abertos de IA, modelagem 3D, renderização e trabalho em CAD
  Eu não faço tudo isso 100% do tempo. Deixo treinamento de ML rodando durante a noite e vejo o resultado de manhã; durante o trabalho, deixo a máquina como servidor rodando modelos locais; e no tempo livre faço edição de vídeo e modelagem 3D. É uma máquina absurdamente versátil, e tudo isso acontece mantendo os dados no dispositivo e com controle total do workflow
- É segredo entre o pessoal do HN, mas alguns desses modelos também rodam em um rpi5 de $200 ou num mini PC AMD de $500
  Outro segredo aberto é que algumas empresas oferecem gratuitamente dezenas de milhares de tokens em modelos bem decentes, como Gemini 3.1 ou GLM 4.6
O texto original compara com Gemma em vários pontos, mas no fim conclui que vale mais a pena pagar a Anthropic. Anthropic cobra $15 por milhão de tokens de saída, o que, pelo próprio OpenRouter, é 30–35x mais caro
Isso é como comparar a bicicleta elétrica da sua casa com aluguel de bicicleta elétrica e concluir que, como dá para ir a velocidades parecidas, você deveria alugar um Toyota. Cansa ver texto ruim recebendo tanta atenção
O texto comete um erro enorme no final e, por isso, fica seriamente errado. Você não pode olhar só para os tokens gerados e dizer que esse é o custo. Em codificação com agentes, há muitas rodadas, então você paga não só pelos tokens de saída, mas por todos os tokens de entrada enviados a cada vez. Mesmo que com cache fique algo como 10x mais barato, ainda assim. Então esse cálculo simplesmente não representa com precisão o custo de API
Em segundo lugar, se você usar uma equipe de agentes, dá para aumentar bastante a geração local de tokens. Uma conversa única fica limitada pela largura de banda de memória e não usa totalmente os recursos de computação. Se você conseguir fazer batching de tokens de vários agentes, dá para multiplicar facilmente a geração de tokens por 5
Simplesmente não consigo usar IA na nuvem. Para mim, privacidade e controle total importam mais do que velocidade ou modelos de ponta
- Também tem previsibilidade, resiliência e soberania. Você não precisa se preocupar com indisponibilidades de terceiros, demanda inesperada te afetando na pior hora, alguém degradando o seu modelo, mudanças imprevisíveis de custo ou uma conta enorme causada por um erro inesperado
  Para mim, entra na mesma categoria de painéis solares no telhado. Se você é o tipo de pessoa que ganha tranquilidade com controle de infraestrutura e menos dependência, a economia estrita nem precisa fechar exatamente para valer a pena