Guia de modelos locais para programação

(aiforswes.com)

20 pontos por GN⁺ 2025-12-22 | 3 comentários | Compartilhar no WhatsApp

Modelos locais conseguem dar conta de cerca de 90% do trabalho de desenvolvimento, mas nos 10% restantes, que exigem mais precisão, os serviços comerciais ainda levam vantagem
Em termos de redução de custos, segurança e disponibilidade, os modelos locais têm grandes vantagens, sendo especialmente úteis em projetos pessoais ou ambientes offline
No entanto, compatibilidade com ferramentas, limitações de memória e complexidade de configuração são apontadas como os principais obstáculos para uso prático
Modelos locais são úteis para projetos de hobby, mas não são adequados para ambientes de produção ou uso corporativo; o mais realista é usá-los como apoio a ferramentas de ponta
Com a chegada das ferramentas gratuitas de IA para programação do Google (Gemini CLI, Jules etc.), o benefício de economia de custos dos modelos locais foi em grande parte reduzido

Aviso de correção do texto original

O autor reconhece que a hipótese original estava errada e publica a correção porque isso poderia influenciar decisões financeiras dos leitores
Continua válido que os modelos locais são bem mais capazes em tarefas de programação do que normalmente se reconhece
Mas a recomendação de cancelar assinaturas de ferramentas de programação e comprar um MacBook Pro foi retirada
O erro decorreu de ter defendido a tese sem validação empírica suficiente
Razões concretas pelas quais a hipótese estava errada
- Modelos locais conseguem executar cerca de 90% das tarefas de desenvolvimento de software, mas os 10% finais são os mais importantes, e por eles vale a pena pagar por modelos de ponta
- A análise partiu da perspectiva de um desenvolvedor hobbyista, mas em ambiente de produção, a recomendação é que empresas forneçam ferramentas como Claude Code aos funcionários
- Ao executar junto outras ferramentas de desenvolvimento que consomem RAM, como Docker, é preciso reduzir o tamanho do modelo, e o desempenho cai significativamente
- Em resumo, modelos locais podem ser usados como ferramenta complementar aos modelos de ponta ou para reduzir o nível da assinatura, mas em situações ligadas diretamente ao sustento, o valor entregue não compensa o esforço

Valor e vantagens dos modelos locais

A maior vantagem dos modelos locais é a economia de custos: ao usar hardware próprio, não é necessário pagar assinatura de nuvem
- Em vez de gastar mais de US$ 100 por mês com assinaturas, é possível investir em upgrade de hardware e economizar no longo prazo
Também há benefícios em termos de confiabilidade e segurança
- Não há impacto de degradação de serviço ou restrições de acesso da nuvem, e os dados não vazam para fora
- Também podem ser usados em ambientes que exigem proteção de propriedade intelectual (IP) interna da empresa
Outro ponto positivo é estar sempre disponível, funcionando inclusive em ambientes com internet limitada (aviões, redes seguras etc.)

Estrutura de memória e otimização

Para executar modelos locais, a memória é consumida tanto pelo próprio modelo quanto pela janela de contexto
- Ex.: um modelo de 30B parâmetros exige cerca de 60 GB de RAM
Como a janela de contexto precisa incluir a base de código, recomenda-se 64.000 tokens ou mais
À medida que o modelo cresce, a exigência de memória por token também aumenta
- Um modelo de 80B exige cerca de 2x mais RAM do que um de 30B
É possível economizar memória com arquitetura de Hybrid Attention ou quantização (Quantization)
- Ao passar de 16 bits para 8 bits, a perda de desempenho é pequena, mas a quantização do cache KV pode causar perda de desempenho bem maior

Escolha do modelo e ferramentas de serving

Modelos Instruct são adequados para ferramentas de programação conversacionais, enquanto modelos non-instruct servem melhor para autocompletar
Entre as ferramentas para servir modelos locais, Ollama e MLX são as principais
- Ollama é mais genérica, simples de configurar e oferece compatibilidade com a API da OpenAI
- MLX é exclusiva para Mac, oferece maior velocidade de processamento de tokens, mas tem configuração mais complexa
No uso real, importam o tempo de resposta até o primeiro token e a taxa de processamento de tokens por segundo
- O MLX mostrou tempo de resposta cerca de 20% mais rápido do que o Ollama

Montando um ambiente local de programação

Ferramentas recomendadas: OpenCode, Aider, Qwen Code, Roo Code, Continue
- Todas oferecem suporte ao padrão OpenAI API, facilitando a troca de modelo
Nos testes, a combinação de Qwen Code com o modelo Qwen3-Coder foi a mais estável
- O modelo GPT-OSS apresentou muitos casos de recusa de solicitação
A arquitetura de memória unificada do MacBook permite compartilhar memória entre CPU e GPU, o que favorece a execução de modelos locais
Após instalar o MLX, é possível servir o modelo como API compatível com OpenAI com o comando mlx-lm.server
- Dependendo da quantidade de RAM, é possível escolher modelos de 4B a 80B
Monitorar o uso de memória é essencial; ao usar memória swap, a velocidade despenca

Resultados do experimento e conclusão

Hipótese inicial: “fazer upgrade de hardware em vez de pagar uma assinatura de US$ 100/mês é mais econômico”
- Conclusão revisada: “Não”; em ambiente profissional, ferramentas por assinatura ainda são mais eficientes
Modelos locais são mais adequados para papel complementar e ajudam a reduzir custos quando usados junto com o nível gratuito de modelos de alto desempenho
O modelo Qwen3-Coder entrega desempenho cerca de meia geração atrás das ferramentas comerciais
Com a oferta gratuita do Google Gemini 3 Flash, a viabilidade econômica dos modelos locais caiu
Espera-se que no futuro os modelos locais melhorem de desempenho e fiquem menores, continuando uma opção atraente para desenvolvedores individuais

Principal aprendizado

Modelos locais se destacam em redução de custos, reforço da segurança e acesso offline
Porém, estabilidade das ferramentas, limites de memória e complexidade de configuração são restrições importantes para uso profissional
O uso em paralelo com modelos de nuvem é a abordagem mais realista
O valor dos modelos locais está mais em serem um complemento do que um “substituto”

3 comentários

ahwjdekf 2025-12-23

É por isso que o problema é esse tal de Macppa.

skageektp 2025-12-24

É um problema distante

GN⁺ 2025-12-22

Comentários do Hacker News

Eu vi este texto da perspectiva de um desenvolvedor por hobby. Ou seja, gente que faz projetos pessoais, não trabalha em produção
Hoje em dia há muita gente pagando assinaturas de ferramentas de programação de US$ 100 a US$ 200 para uso pessoal, mas na prática a maioria não precisa disso
Só com os planos de US$ 20/mês da OpenAI ou da Anthropic já dá para ir bem longe. Especialmente a OpenAI, em que o preço do Codex é muito mais barato, então o custo-benefício é bom
O momento de gastar mais de US$ 100 chega quando você já esgotou o limite do plano de US$ 20 e está ficando travado. Aí é só decidir por conta própria e fazer o upgrade
- Eu uso modelos locais e os modelos gratuitos da OpenRouter. Meu custo mensal com modelos de IA não chega a US$ 1
  Não é por avareza, e sim porque acho que a queda no custo de inferência vai acabar levando tudo nessa direção
  Automatizei buscas em documentação que antes fazia manualmente com comandos como $ what-man "pergunta". Criei localmente um banco de embeddings de manpages, e o LLM encontra e resume a documentação
  Como não peço ao modelo para “pensar”, e sim apenas para processar texto, isso é muito estável
  Autores de documentação tendem a esconder flags importantes lá no fundo, e esse método resolve esse problema
- O plano de US$ 20/mês esgota o limite em 10 a 20 minutos quando você está explorando um codebase grande
  Mas para mim basta, porque uso mais para busca de código ou refatoração
  Já quando você manda o LLM escrever código diretamente, os tokens evaporam num instante. Se tentar desenvolver no estilo “vibecoding”, o desperdício de tokens fica sério
  Até o nível de um app React simples tudo bem, mas quando você entra em áreas que não estão nos dados de treino, dá para ver o modelo se perdendo sem parar
- Eu também uso esse tipo de ferramenta em projetos pessoais. O limite do Claude Code acaba em uma hora, mas ainda assim vale a pena
  Não quero dar dinheiro para a OpenAI
- Eu também uso o Claude Max para programação pessoal. O plano de US$ 20 esgotava rápido, então fiz upgrade
  Meu projeto ainda não dá lucro, mas encaro isso como um investimento em aprendizado
- O OpenAI Codex, no meu ambiente, só desperdiça tokens. Até tarefas simples como trocar a versão do Node entram em loop
  Já o Claude é muito produtivo
  E acho que a maioria das pessoas é inteligente o bastante para fazer upgrade só quando precisa. Ninguém precisa começar logo pelo plano caro
  Além disso, o tema deste texto é modelo local, então esse conselho sobre planos de assinatura parece meio fora do assunto
Fiquei curioso com o cálculo por trás da ideia de que um notebook de US$ 5.000 iria competir com modelos SOTA nos próximos 5 anos
Na prática, acho que essa ilusão caiu em dois dias. Eu também já fiz algo parecido, seduzido por hardware reluzente
No fim, modelos locais servem mais para hobby ou obsessão com privacidade. Se a privacidade realmente importa, acho melhor alugar um servidor
- Ainda assim, respeito quem quer tentar por conta própria. Isso me lembra a cultura hacker dos anos 80 e 90
- Mesmo com meu MacBook Pro de 2023 (M2 Max), ainda consigo rodar localmente modelos de nível SOTA de 1,5 ano atrás
  Não é uma comparação perfeita, mas olhando a velocidade de evolução dos modelos locais, já é algo bem significativo
- O hardware continua o mesmo, mas os modelos ficam cada vez mais eficientes, então acho parecido pagar 5 anos de assinatura de modelos online ou comprar um notebook
  De qualquer forma você vai precisar de um notebook, então acho melhor comprar um com configuração suficiente para modelos locais
- Será mesmo? Segundo uma análise recente da Epoch.ai, as GPUs de consumo chegam perto do desempenho de Frontier AI em até 1 ano. Acho que não dá para subestimar modelos com pesos abertos
- Também concordo. Para programação, já é difícil aguentar um modelo que fique só um degrau abaixo do SOTA
Foi interessante o autor reconhecer por conta própria que partia de uma premissa errada
Mas a ideia de “usar um Mac por 5 anos” é irrealista. A evolução dos modelos é rápida demais
Em ambiente corporativo, talvez seja preciso equipamento parrudo como um Mac Studio com 512GB de RAM
Houve discussão relacionada também nesta thread anterior
O texto cita MLX e Ollama, mas senti falta do LM Studio
O LM Studio suporta tanto modelos MLX quanto GGUF e oferece uma GUI de macOS mais completa do que o Ollama
O catálogo de modelos também é mantido ativamente na página oficial
- Acho o LM Studio muito melhor que o Ollama. É até estranho não ser mais popular
- Ficou com um leve ar de post patrocinado
- Vale mencionar que o LM Studio não é open source. Se o motivo para usar modelo local é confiança, um app fechado perde parte do sentido
- Também vale citar o ramalama.ai
- O LM Studio usa llama.cpp internamente
O texto diz “rodar um modelo de 80B em 128GB de RAM”, mas ao mesmo tempo sugere testar um modelo de 4B com 8GB de RAM, o que me pareceu estranho
Não há discussão nenhuma sobre perda de qualidade
- É como um texto sobre “como ser autossuficiente numa fazenda de 4 acres” dizer que isso pode ser substituído por um vasinho de planta. Absurdo
Com o plano Cursor de US$ 20/mês, eu rodei 260 milhões de tokens. Foi minha primeira assinatura paga, então não entendo muito bem essa abordagem do texto
Sinceramente, parece que está faltando alguma coisa, e ainda tenho muitas dúvidas
Como a depreciação de um Mac é maior do que a mensalidade de uma assinatura, acho fraco o argumento de economia
Pode haver outros motivos para usar modelos locais, mas em eficiência de custo isso não é tão bom
Além disso, há um grande risco de o hardware bater no limite muito rápido. No fim, a mesma lógica vale para usar modelos pequenos em ferramentas online
Os modelos mais recentes (Opus 4.5, GPT 5.2) só agora conseguem acompanhar por pouco os problemas que eu proponho
Acho que ainda vai levar de 1 a 2 anos para que modelos locais cheguem a um nível em que não desperdicem o tempo do desenvolvedor
- Os modelos são treinados com dados existentes, então, quanto mais longe dos dados, mais o desempenho despenca
  Nesses casos você precisa escrever prompts mais específicos, mas isso acaba deixando tudo mais lento
Um MacBook Pro no máximo é caro demais pelo poder computacional que entrega. A Apple especialmente cobra caro demais pela RAM
Dá para montar um desktop Linux com especificações equivalentes por metade do preço
Se portabilidade for importante, notebooks não-Apple também são alternativas mais baratas
- Mas se você precisar de memória unificada (unified RAM), as opções são limitadas
  No Linux existem Nvidia Spark ou a linha AMD Ryzen AI, mas modelos com 128GB de RAM são raros
  Também são difíceis de atualizar e custam caro
- Existe algum sistema x86 com memória unificada de 512GB?
  Na verdade essa é a principal vantagem do Mac. Agora, com o Exo, já dá até para passar de 512GB
Eu não rodo modelos locais no meu PC de desenvolvimento. Acho melhor usar uma máquina separada
Tem menos barulho de ventoinha e não afeta o desempenho da máquina de trabalho
Para LLM, uma latência de algumas centenas de ms não é problema. A menos que você esteja viajando e trabalhando offline, não vejo muito motivo para isso
- Hoje em dia equipamentos como Mac Studio ou Nvidia DGX são silenciosos e mais acessíveis, então essa preocupação diminuiu