Apple Silicon custa mais do que OpenRouter
(williamangel.net)- O custo da inferência local é impactado mais pelo preço do dispositivo do que pela conta de energia, e o modelo M5 Max MacBook Pro 64GB foi calculado em $4,299
- Um notebook com Apple Silicon sob carga consome 50~100W, e com eletricidade a $0.20 por kWh, o custo diário de energia fica em cerca de $0.48
- O Gemma4:31b foi observado no M5 Max em 10~40 tokens por segundo, o que leva a um custo de cerca de $0.40~$4.79 por milhão de tokens
- O Gemma4 31b no OpenRouter custa cerca de $0.38~$0.50 por milhão de tokens, então só fica parecido com o MacBook Pro Max em condições muito otimistas
- Em geral, a inferência local é mais cara e mais lenta do que no OpenRouter, e do ponto de vista contábil faz sentido considerar o custo do Pro Max em cerca de 3 vezes por milhão de tokens
Cálculo do custo da inferência local
- A tarifa de energia é de $0.18 por kWh com base em uma conta recente de Northern Virginia, mas no cálculo foi arredondada para cima para $0.20 por kWh
- A tarifa média residencial de energia nos EUA em 2025 segundo a EIA é de $0.1730 por kWh
- Se um notebook com Apple Silicon consome 50~100W sob carga, o custo de eletricidade fica em $0.009~$0.018 por hora, e pode ser estimado em cerca de $0.02 por hora
- Mesmo mantendo a inferência em 100% continuamente, o custo de energia fica em torno de $0.48 por dia
- O modelo de 14 polegadas M5 Max MacBook Pro com 64GB custa $4,299 no site da Apple, e 64GB é considerado suficiente para rodar modelos como o Gemma 4 31b
- Dividindo a vida útil do hardware em 3, 5 e 10 anos, o custo anual fica em $1,433, $860 e $430, respectivamente
- O custo de hardware por hora é calculado em $0.16358 para 3 anos, $0.09815 para 5 anos e $0.04908 para 10 anos
- Em uso comum, 5 anos é uma estimativa razoável de vida útil, e 7 ou 10 anos também são possíveis, mas sob carga máxima de inferência até 3 anos pode ser uma estimativa plausível
Custo por token e comparação com o OpenRouter
- A principal variável no custo de um modelo local é o número de tokens que ele consegue gerar por hora, e nos testes com o M5 Max modelos como o Gemma4:31b ficaram na faixa de 10~40 tokens por segundo
- A 10 tokens por segundo, isso equivale a 36,000 tokens por hora, e com vida útil de 3~10 anos e eletricidade a $0.18 por kWh, o custo por milhão de tokens fica em $1.61~$4.79
- A 40 tokens por segundo, isso equivale a 144,000 tokens por hora, e o custo por milhão de tokens cai para $0.40~$1.20
- No Apple Silicon, o custo de hardware pesa mais no custo total do que a conta de energia
- O preço do Gemma4 31b no OpenRouter é de cerca de $0.38~$0.50 por milhão de tokens
- Em condições otimistas de 50W, 40 tokens por segundo e 10 anos de uso, o MacBook Pro Max cai para um custo parecido com o do OpenRouter
- Em condições pessimistas de 100W, 10 tokens por segundo e 3 anos de uso, o MacBook Pro Max fica 10 vezes mais caro do que o OpenRouter
- Do ponto de vista contábil, é razoável estimar o custo da inferência local no Pro Max em cerca de 3 vezes o do OpenRouter por milhão de tokens
- Na maioria dos casos, a velocidade de inferência é uma variável mais importante do que o custo, e a inferência local é mais lenta do que a inferência em nuvem
- Alguns provedores de Gemma 4 no OpenRouter chegam a 60~70 tokens por segundo, ou seja, 3~7 vezes mais rápido do que os 10~20 tokens por segundo observados no Pro Max
- O custo salarial de um funcionário usando um notebook de trabalho é cerca de 1000 vezes maior do que o custo dos tokens gerados localmente, então, nesse contexto, faz mais sentido gastar com Anthropic
- Ainda assim, continua sendo surpreendente que um dispositivo de consumo consiga rodar um modelo com desempenho próximo ao Anthropic Sonnet
1 comentários
Comentários no Hacker News
Esta análise não é muito boa, porque continua arredondando tudo para cima. Superestima a conta de luz em 10%, escolhe o limite superior da faixa de consumo de energia, que é o dobro do valor mais baixo, e depois multiplica isso pela tarifa de energia inflada
Além disso, parte da premissa de rodar um Mac novo para inferência 24 horas por dia sob carga máxima. Por que faria isso? Apple Silicon é rápido, mas, como o próprio autor observa, algo como 10–40 tokens por segundo; não é ruim, mas também não foi feito para isso
Datacenters não pagam tarifa residencial de energia, usam chips com melhor eficiência energética e usam chips que não foram projetados para ser Macs. Apple Silicon fica bem interessante se você não estiver queimando tokens 24/7/365 e não comprar hardware novo só para isso. Dá para usar um Mac Studio algumas vezes por semana no que você precisa e rodar o
ollama“quase de graça” por uma tailnet. Faz sentido economicamente quando você não tenta usar um Mac Studio como se fosse um cluster H100 com refrigeração líquida, e é óbvio que hardware multitenant com energia barata e mais tokens por watt quase sempre vai ganharSe não entendi errado, esse cálculo está colocando o preço total do notebook no custo de geração de tokens. Parece ignorar que, em troca do dinheiro, você recebe não só a saída do LLM, mas também o notebook
Se a ideia é deixar a máquina num canto escuro e rodá-la apenas como servidor devorador de tokens, então um notebook é realmente uma péssima escolha tecnológica para esse objetivo. Mas se você pretende usar o notebook como notebook, o fato de ganhar um notebook é uma vantagem enorme em relação a não ganhar nada
Você também ganha privacidade, liberdade contra censura e controle sobre o modelo usado. Dá para evitar a situação em que você monta um workflow em torno das características de um modelo e, três meses depois, ele simplesmente desaparece
Um número absurdamente grande dessas pessoas gastou mais de $10.000 em Mac Studio e ainda assim continua com gargalo de computação, além de haver poucas opções mais eficientes que Gemma 4
As empresas de IA de fronteira estão vendendo no prejuízo
Mesmo deixando de lado o que u/bastawhiz disse[0], Claude, OpenAI, Gemini etc. estão literalmente queimando centenas de bilhões de dólares e revendendo algo de $1 por alguns centavos, na esperança de serem as últimas a sobreviver
Se eu gasto $10 para cultivar uma laranja e vendo por $1, obviamente vai parecer que cultivar você mesmo é mais caro. Esses modelos inevitavelmente vão ficar mais caros com o tempo; eles só estão tentando dominar o mercado antes de parar com essa venda com enorme prejuízo
[0]: https://news.ycombinator.com/item?id=48168433
Além disso, existem razões técnicas pelas quais a inferência fica muito mais eficiente em escala
LLAMA 3.1 405B custava $6/$12 por milhão de tokens em 2024, mas em 2026 o mesmo modelo custa $3/$3. O custo por token do GPT5.5 é maior que o do 5.4 porque o modelo mais inteligente de cada momento costuma ser muito maior que o anterior. Mas, daqui a 2 anos, é provável que o custo de oferecer um modelo do tamanho do GPT5.5 seja menor do que o do GPT5.5 hoje. Técnicas de destilação são eficazes em reduzir o número de parâmetros necessários para atingir as mesmas pontuações em benchmarks, então daqui a 2 anos deve ser possível obter o mesmo nível de inteligência por menos
Se você quer um bom modelo denso, é melhor usar qwen3.6 27B. É mais rápido e, se você não confiar em mim quando digo que também é mais inteligente, então o preço no OpenRouter comparado a um Gemma maior, mais lento e menos eficiente em memória fala por si
Se quiser um modelo mais rápido, basta usar qwen3.6 35B. Se os modelos Gemma se encaixam melhor no seu trabalho, então também dá para usar gemma 4 26B. Há uma razão para as pessoas, inclusive eu, continuarem falando desses dois, especialmente do 27B. É pequeno o bastante para rodar em velocidade aceitável e, finalmente, ainda mais por causa do MTP embutido com suporte oficial no llama.cpp, e em muitas cargas de trabalho e em todos os benchmarks que testei ele iguala ou supera modelos que em tese não deveria vencer
Alguns dias atrás acordei sem internet, subi o 27B no pi, passei a senha do roteador e pedi para diagnosticar o problema. Quando voltei com o café, havia um relatório completo incluindo sugestões de como prosseguir. Eu gosto do OpenRouter e o uso para várias coisas, mas ele não sai mais barato
Claro, tudo isso inclui subjetividade baseada na minha experiência pessoal usando todos esses modelos. Pode haver casos em que o Gemma 31B leve vantagem, mas eu não encontrei nenhum, e venho rodando esses 4 modelos em várias tarefas desde poucas horas depois do lançamento de cada um. No meu hermes, inclusive, trocar gemma 4 26B por qwen3.5 9B melhorou os resultados, e isso nem era a série 3.6, que melhorou bastante. Fazer esse tipo de análise sem usar os modelos considerados estado da arte atual em hardware de consumo parece antiquado ou cherry-picking
Da mesma forma, o DeepSeek V4 Flash também é bastante acessível como modelo local, e com DwarfStar 4 dá para rodar tranquilamente num MacBook de 96GB
Pagar por inferência em si não é o problema, mas modelos locais abrem possibilidades realmente impressionantes, como uso totalmente offline, processamento de dados com informações de identificação pessoal ou protegidos por sigilo legal, e trabalhos em que você não precisa se preocupar nem um pouco com estouro de cobrança
Outro ponto é que você pode criar um serviço com confiança de que ele continuará funcionando 100% do tempo sem se preocupar com interrupções ou encerramento do serviço. Modelos de fronteira hoje têm esse problema. Minha configuração local com Qwen é totalmente previsível e continuará funcionando enquanto eu puder conseguir o hardware para rodá-la
A estratégia racional é usar os dois. Tenha ferramentas de inferência local e use junto modelos baratos e caros na nuvem. Use GPT-5.5 e Opus-4.7 para o que eles fazem bem, como tarefas de raciocínio mais difíceis; use o segundo mais barato via assinatura Claude; para tarefas um pouco menos exigentes, use DeepSeek V4 Pro; para a maior parte da geração de código, V4 Flash; e para o que exigir modelo local, use um modelo local
Esses fornecedores parecem estar seguindo o preço primário do 27B Dense da Alibaba e, pessoalmente, acho meio caro. Pode ser porque os modelos Qwen têm eficiência de inferência menor que os modelos de fronteira ou que o Gemma, e porque oferecer comprimentos de sequência longos custa caro
O exemplo de depuração com o 27B é bom. Depois de comprar um Mac com 4x mais memória, tive sucesso parecido, e o Qwen 35B A3B de repente passou a se sair muito bem. O 9B no notebook era difícil de chamar de bom
Há muitos comentários aqui tratando dos problemas da análise original, mas em relação à conclusão mais ampla, para bastante gente isso parece quase uma “diferença sem diferença”. Tirando privacidade, olhando só para custo e desempenho, para um desenvolvedor individual geralmente é melhor usar um serviço hospedado do que hospedar por conta própria
No trabalho, o empregador paga os tokens, e fora do trabalho a maioria dos desenvolvedores acha suficiente uma assinatura mensal de $20/$100/$200 do provedor que preferirem. Do ponto de vista puro de custo-benefício, não são muitos os desenvolvedores para quem rodar modelos localmente faz sentido
Mais importante ainda, configurar modelos locais na prática parece mais uma questão de hobby, aprendizado ou controle de privacidade do que de economizar dinheiro ou aumentar produtividade
O computador pessoal encerrou a era anterior dos terminais, a maioria daquelas empresas desapareceu, e só sobraram a IBM e algumas outras sobreviventes, mas como sombras do que já foram
O autor comparou só o custo dos tokens de saída, mas em cargas de trabalho típicas de agentes os tokens de entrada representam uma parte grande do custo. Na inferência local, os tokens de entrada são essencialmente grátis
Você só passa a ter custos implícitos, como maior latência até o primeiro token, maior consumo de energia e menor velocidade de tokens de saída
Olhei algumas sessões aleatórias de agente na minha atividade do OpenRouter e o custo de entrada era 10x o custo de saída. O cache de prompt do OpenRouter é complexo e difícil de confiar, mas no
llama-cppem hardware local ele é praticamente de graça na maior parte do tempoSe você fizer escolhas inteligentes, não é assim. Um MacBook M5 Max 128GB é um notebook premium de 6 mil dólares, mas é capaz de fazer muita coisa e vira uma ótima máquina principal para o dia inteiro
Além disso, você pode rodar DeepSeek V4 Flash e executar localmente, sem censura nem restrições, sem internet e com dados pessoais muito sensíveis, tarefas nada triviais. É um bom negócio. Se você comprar um setup com dois Mac Studio 512GB por $25.000 para tentar abandonar OpenAI e cia., vai se decepcionar tanto em desempenho quanto em custo
Como autor do blog, estou escrevendo isto num MacBook M5 Max 128GB
Eu não faço tudo isso 100% do tempo. Deixo treinamento de ML rodando durante a noite e vejo o resultado de manhã; durante o trabalho, deixo a máquina como servidor rodando modelos locais; e no tempo livre faço edição de vídeo e modelagem 3D. É uma máquina absurdamente versátil, e tudo isso acontece mantendo os dados no dispositivo e com controle total do workflow
Outro segredo aberto é que algumas empresas oferecem gratuitamente dezenas de milhares de tokens em modelos bem decentes, como Gemini 3.1 ou GLM 4.6
O texto original compara com Gemma em vários pontos, mas no fim conclui que vale mais a pena pagar a Anthropic. Anthropic cobra $15 por milhão de tokens de saída, o que, pelo próprio OpenRouter, é 30–35x mais caro
Isso é como comparar a bicicleta elétrica da sua casa com aluguel de bicicleta elétrica e concluir que, como dá para ir a velocidades parecidas, você deveria alugar um Toyota. Cansa ver texto ruim recebendo tanta atenção
O texto comete um erro enorme no final e, por isso, fica seriamente errado. Você não pode olhar só para os tokens gerados e dizer que esse é o custo. Em codificação com agentes, há muitas rodadas, então você paga não só pelos tokens de saída, mas por todos os tokens de entrada enviados a cada vez. Mesmo que com cache fique algo como 10x mais barato, ainda assim. Então esse cálculo simplesmente não representa com precisão o custo de API
Em segundo lugar, se você usar uma equipe de agentes, dá para aumentar bastante a geração local de tokens. Uma conversa única fica limitada pela largura de banda de memória e não usa totalmente os recursos de computação. Se você conseguir fazer batching de tokens de vários agentes, dá para multiplicar facilmente a geração de tokens por 5
Simplesmente não consigo usar IA na nuvem. Para mim, privacidade e controle total importam mais do que velocidade ou modelos de ponta
Para mim, entra na mesma categoria de painéis solares no telhado. Se você é o tipo de pessoa que ganha tranquilidade com controle de infraestrutura e menos dependência, a economia estrita nem precisa fechar exatamente para valer a pena