- Modelos locais conseguem dar conta de cerca de 90% do trabalho de desenvolvimento, mas nos 10% restantes, que exigem mais precisão, os serviços comerciais ainda levam vantagem
- Em termos de redução de custos, segurança e disponibilidade, os modelos locais têm grandes vantagens, sendo especialmente úteis em projetos pessoais ou ambientes offline
- No entanto, compatibilidade com ferramentas, limitações de memória e complexidade de configuração são apontadas como os principais obstáculos para uso prático
- Modelos locais são úteis para projetos de hobby, mas não são adequados para ambientes de produção ou uso corporativo; o mais realista é usá-los como apoio a ferramentas de ponta
- Com a chegada das ferramentas gratuitas de IA para programação do Google (Gemini CLI, Jules etc.), o benefício de economia de custos dos modelos locais foi em grande parte reduzido
Aviso de correção do texto original
- O autor reconhece que a hipótese original estava errada e publica a correção porque isso poderia influenciar decisões financeiras dos leitores
- Continua válido que os modelos locais são bem mais capazes em tarefas de programação do que normalmente se reconhece
- Mas a recomendação de cancelar assinaturas de ferramentas de programação e comprar um MacBook Pro foi retirada
- O erro decorreu de ter defendido a tese sem validação empírica suficiente
-
Razões concretas pelas quais a hipótese estava errada
- Modelos locais conseguem executar cerca de 90% das tarefas de desenvolvimento de software, mas os 10% finais são os mais importantes, e por eles vale a pena pagar por modelos de ponta
- A análise partiu da perspectiva de um desenvolvedor hobbyista, mas em ambiente de produção, a recomendação é que empresas forneçam ferramentas como Claude Code aos funcionários
- Ao executar junto outras ferramentas de desenvolvimento que consomem RAM, como Docker, é preciso reduzir o tamanho do modelo, e o desempenho cai significativamente
- Em resumo, modelos locais podem ser usados como ferramenta complementar aos modelos de ponta ou para reduzir o nível da assinatura, mas em situações ligadas diretamente ao sustento, o valor entregue não compensa o esforço
Valor e vantagens dos modelos locais
- A maior vantagem dos modelos locais é a economia de custos: ao usar hardware próprio, não é necessário pagar assinatura de nuvem
- Em vez de gastar mais de US$ 100 por mês com assinaturas, é possível investir em upgrade de hardware e economizar no longo prazo
- Também há benefícios em termos de confiabilidade e segurança
- Não há impacto de degradação de serviço ou restrições de acesso da nuvem, e os dados não vazam para fora
- Também podem ser usados em ambientes que exigem proteção de propriedade intelectual (IP) interna da empresa
- Outro ponto positivo é estar sempre disponível, funcionando inclusive em ambientes com internet limitada (aviões, redes seguras etc.)
Estrutura de memória e otimização
- Para executar modelos locais, a memória é consumida tanto pelo próprio modelo quanto pela janela de contexto
- Ex.: um modelo de 30B parâmetros exige cerca de 60 GB de RAM
- Como a janela de contexto precisa incluir a base de código, recomenda-se 64.000 tokens ou mais
- À medida que o modelo cresce, a exigência de memória por token também aumenta
- Um modelo de 80B exige cerca de 2x mais RAM do que um de 30B
- É possível economizar memória com arquitetura de Hybrid Attention ou quantização (Quantization)
- Ao passar de 16 bits para 8 bits, a perda de desempenho é pequena, mas a quantização do cache KV pode causar perda de desempenho bem maior
Escolha do modelo e ferramentas de serving
- Modelos Instruct são adequados para ferramentas de programação conversacionais, enquanto modelos non-instruct servem melhor para autocompletar
- Entre as ferramentas para servir modelos locais, Ollama e MLX são as principais
- Ollama é mais genérica, simples de configurar e oferece compatibilidade com a API da OpenAI
- MLX é exclusiva para Mac, oferece maior velocidade de processamento de tokens, mas tem configuração mais complexa
- No uso real, importam o tempo de resposta até o primeiro token e a taxa de processamento de tokens por segundo
- O MLX mostrou tempo de resposta cerca de 20% mais rápido do que o Ollama
Montando um ambiente local de programação
- Ferramentas recomendadas: OpenCode, Aider, Qwen Code, Roo Code, Continue
- Todas oferecem suporte ao padrão OpenAI API, facilitando a troca de modelo
- Nos testes, a combinação de Qwen Code com o modelo Qwen3-Coder foi a mais estável
- O modelo GPT-OSS apresentou muitos casos de recusa de solicitação
- A arquitetura de memória unificada do MacBook permite compartilhar memória entre CPU e GPU, o que favorece a execução de modelos locais
- Após instalar o MLX, é possível servir o modelo como API compatível com OpenAI com o comando
mlx-lm.server
- Dependendo da quantidade de RAM, é possível escolher modelos de 4B a 80B
- Monitorar o uso de memória é essencial; ao usar memória swap, a velocidade despenca
Resultados do experimento e conclusão
- Hipótese inicial: “fazer upgrade de hardware em vez de pagar uma assinatura de US$ 100/mês é mais econômico”
- Conclusão revisada: “Não”; em ambiente profissional, ferramentas por assinatura ainda são mais eficientes
- Modelos locais são mais adequados para papel complementar e ajudam a reduzir custos quando usados junto com o nível gratuito de modelos de alto desempenho
- O modelo Qwen3-Coder entrega desempenho cerca de meia geração atrás das ferramentas comerciais
- Com a oferta gratuita do Google Gemini 3 Flash, a viabilidade econômica dos modelos locais caiu
- Espera-se que no futuro os modelos locais melhorem de desempenho e fiquem menores, continuando uma opção atraente para desenvolvedores individuais
Principal aprendizado
- Modelos locais se destacam em redução de custos, reforço da segurança e acesso offline
- Porém, estabilidade das ferramentas, limites de memória e complexidade de configuração são restrições importantes para uso profissional
- O uso em paralelo com modelos de nuvem é a abordagem mais realista
- O valor dos modelos locais está mais em serem um complemento do que um “substituto”
3 comentários
É por isso que o problema é esse tal de Macppa.
É um problema distante
Comentários do Hacker News
Eu vi este texto da perspectiva de um desenvolvedor por hobby. Ou seja, gente que faz projetos pessoais, não trabalha em produção
Hoje em dia há muita gente pagando assinaturas de ferramentas de programação de US$ 100 a US$ 200 para uso pessoal, mas na prática a maioria não precisa disso
Só com os planos de US$ 20/mês da OpenAI ou da Anthropic já dá para ir bem longe. Especialmente a OpenAI, em que o preço do Codex é muito mais barato, então o custo-benefício é bom
O momento de gastar mais de US$ 100 chega quando você já esgotou o limite do plano de US$ 20 e está ficando travado. Aí é só decidir por conta própria e fazer o upgrade
Não é por avareza, e sim porque acho que a queda no custo de inferência vai acabar levando tudo nessa direção
Automatizei buscas em documentação que antes fazia manualmente com comandos como
$ what-man "pergunta". Criei localmente um banco de embeddings de manpages, e o LLM encontra e resume a documentaçãoComo não peço ao modelo para “pensar”, e sim apenas para processar texto, isso é muito estável
Autores de documentação tendem a esconder flags importantes lá no fundo, e esse método resolve esse problema
Mas para mim basta, porque uso mais para busca de código ou refatoração
Já quando você manda o LLM escrever código diretamente, os tokens evaporam num instante. Se tentar desenvolver no estilo “vibecoding”, o desperdício de tokens fica sério
Até o nível de um app React simples tudo bem, mas quando você entra em áreas que não estão nos dados de treino, dá para ver o modelo se perdendo sem parar
Não quero dar dinheiro para a OpenAI
Meu projeto ainda não dá lucro, mas encaro isso como um investimento em aprendizado
Já o Claude é muito produtivo
E acho que a maioria das pessoas é inteligente o bastante para fazer upgrade só quando precisa. Ninguém precisa começar logo pelo plano caro
Além disso, o tema deste texto é modelo local, então esse conselho sobre planos de assinatura parece meio fora do assunto
Fiquei curioso com o cálculo por trás da ideia de que um notebook de US$ 5.000 iria competir com modelos SOTA nos próximos 5 anos
Na prática, acho que essa ilusão caiu em dois dias. Eu também já fiz algo parecido, seduzido por hardware reluzente
No fim, modelos locais servem mais para hobby ou obsessão com privacidade. Se a privacidade realmente importa, acho melhor alugar um servidor
Não é uma comparação perfeita, mas olhando a velocidade de evolução dos modelos locais, já é algo bem significativo
De qualquer forma você vai precisar de um notebook, então acho melhor comprar um com configuração suficiente para modelos locais
Foi interessante o autor reconhecer por conta própria que partia de uma premissa errada
Mas a ideia de “usar um Mac por 5 anos” é irrealista. A evolução dos modelos é rápida demais
Em ambiente corporativo, talvez seja preciso equipamento parrudo como um Mac Studio com 512GB de RAM
Houve discussão relacionada também nesta thread anterior
O texto cita MLX e Ollama, mas senti falta do LM Studio
O LM Studio suporta tanto modelos MLX quanto GGUF e oferece uma GUI de macOS mais completa do que o Ollama
O catálogo de modelos também é mantido ativamente na página oficial
O texto diz “rodar um modelo de 80B em 128GB de RAM”, mas ao mesmo tempo sugere testar um modelo de 4B com 8GB de RAM, o que me pareceu estranho
Não há discussão nenhuma sobre perda de qualidade
Com o plano Cursor de US$ 20/mês, eu rodei 260 milhões de tokens. Foi minha primeira assinatura paga, então não entendo muito bem essa abordagem do texto
Sinceramente, parece que está faltando alguma coisa, e ainda tenho muitas dúvidas
Como a depreciação de um Mac é maior do que a mensalidade de uma assinatura, acho fraco o argumento de economia
Pode haver outros motivos para usar modelos locais, mas em eficiência de custo isso não é tão bom
Além disso, há um grande risco de o hardware bater no limite muito rápido. No fim, a mesma lógica vale para usar modelos pequenos em ferramentas online
Os modelos mais recentes (Opus 4.5, GPT 5.2) só agora conseguem acompanhar por pouco os problemas que eu proponho
Acho que ainda vai levar de 1 a 2 anos para que modelos locais cheguem a um nível em que não desperdicem o tempo do desenvolvedor
Nesses casos você precisa escrever prompts mais específicos, mas isso acaba deixando tudo mais lento
Um MacBook Pro no máximo é caro demais pelo poder computacional que entrega. A Apple especialmente cobra caro demais pela RAM
Dá para montar um desktop Linux com especificações equivalentes por metade do preço
Se portabilidade for importante, notebooks não-Apple também são alternativas mais baratas
No Linux existem Nvidia Spark ou a linha AMD Ryzen AI, mas modelos com 128GB de RAM são raros
Também são difíceis de atualizar e custam caro
Na verdade essa é a principal vantagem do Mac. Agora, com o Exo, já dá até para passar de 512GB
Eu não rodo modelos locais no meu PC de desenvolvimento. Acho melhor usar uma máquina separada
Tem menos barulho de ventoinha e não afeta o desempenho da máquina de trabalho
Para LLM, uma latência de algumas centenas de ms não é problema. A menos que você esteja viajando e trabalhando offline, não vejo muito motivo para isso