Executar modelos locais agora ficou bom

(vickiboykis.com)

20 pontos por GN⁺ 2026-06-17 | 7 comentários | Compartilhar no WhatsApp

Mesmo em um Mac M2 de 2022, os LLMs locais melhoraram a ponto de serem práticos para perguntas de desenvolvimento, tarefas de código e checagem de documentação
Os primeiros modelos locais eram lentos, difíceis de usar e pouco precisos em tarefas de programação, mas depois do GPT-OSS a frequência de revalidação com modelos via API diminuiu
Com os lançamentos mais recentes da linha Gemma 4, o loop local de codificação com agente opera com cerca de 75% de precisão e velocidade em comparação com modelos de fronteira
A combinação de Pi e LM Studio executa workflows com agentes por meio de um endpoint local de inferência, artefatos de modelo e uma configuração de isolamento com Docker
Os modelos locais ainda têm limitações de latência de inferência, janelas de contexto pequenas e restrições de hardware, mas permitem observar e alterar diretamente o processamento de tokens, o prompt de sistema, a quantização e o harness

Onde os modelos locais estão agora

Os primeiros modelos locais eram lentos, difíceis de usar e imprecisos na maioria das tarefas de programação
A avaliação de que os modelos locais estavam muito atrás era, em geral, correta para uso pessoal até o lançamento do GPT-OSS
O critério pessoal para um “modelo bom o suficiente” era se ainda era preciso confirmar de novo com um modelo via API, e o GPT-OSS foi o primeiro modelo a reduzir bastante essa frequência
Até recentemente, os modelos locais eram usados principalmente como um Google rápido e personalizado para perguntas de desenvolvimento que não exigiam informação atualizada
Depois dos lançamentos mais recentes da linha Gemma 4, o loop local de codificação com agente roda com cerca de 75% da precisão e da velocidade de modelos de fronteira {p:75}

Modelos usados e ambiente de execução

Vários modelos locais foram executados em um Mac M2 de 2022 com 64GB de RAM e 1TB de armazenamento
- Os modelos usados foram Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE, Qwen 2.5 Coder etc.
A configuração de execução passou por raw llama.cpp, Open WebUI, llama-cpp-python, Ollama, llamafiles e LM Studio
O modelo local padrão usado foi a implementação do LM Studio de gemma-4-26b-a4b

Casos reais de trabalho com agentes locais

Um notebook foi refatorado para um repositório com 5 a 6 módulos em script Python
Esses módulos foram ajustados com lint para usar type hints genéricos de acordo com a PEP 585
A configuração local também foi usada para revisar textos de blog, escrever testes unitários e fazer a configuração inicial de um repositório de modelo two-tower para recomendações
O repositório de modelo two-tower gerado pelo agente do zero era básico, mas já ia além do que parecia possível no ano passado
Todos os workflows com agentes foram executados dentro de contêineres Docker com acesso de execução restrito

Uso de recursos e modelos pequenos mais recentes

As tarefas realizadas estavam mais próximas de um Google personalizado ou consulta de documentação do que de algo revolucionário
Durante o trabalho, o uso de GPU e RAM aumentou, e o cache K-V cresceu até 64GB de RAM
Mesmo tarefas simples desse tipo de trabalho com modelos locais eram impossíveis até cerca de 6 meses atrás
O Gemma-4-12b-qat impressionou pelo desempenho em relação ao tamanho desde logo após o lançamento
A arquitetura do modelo leva a questionar que tipos de compromisso arquitetural são necessários quando há restrições de desempenho e custo

Configuração para executar modelos locais com agente

Para rodar um fluxo de agente local, é preciso um motor local de inferência de modelo, um harness de agente e artefatos locais do modelo
O harness deve ser configurado para apontar para um endpoint local de inferência, e os artefatos de modelo baixados devem ser servidos pelo motor de inferência
A configuração local atual usa Pi como harness de agente e LM Studio como servidor de inferência
Seguiu-se o guia sobre configurar codificação com agente da Gemma 4 usando Pi e LM Studio, com algumas mudanças nas configurações
- Em vez do Gemma 26B A4B usado no texto, foi usado o gemma-4-12b-qat, que é mais novo, menor e mais rápido, sem grande perda de precisão
- Por segurança, todas as sessões do Pi rodam em contêineres Docker e recebem apenas permissão de bash, bloqueando execução de código Python e navegação na web
- Em uma imagem separada para trabalho de pesquisa, há plano de permitir curl
- Como roda dentro do Docker, foi preciso editar o models.json do Pi para que o Pi se comunicasse com o modelo

Método de isolamento baseado em Docker

Na configuração do Pi, baseUrl foi definido como http://host.docker.internal:1234/v1, e a API foi configurada como openai-completions
A configuração do Docker Compose monta models.json, o diretório de trabalho, a configuração do Pi e o diretório de sessões no contêiner
O script de execução conecta o diretório de trabalho atual ao workspace do contêiner e, se necessário, adiciona um arquivo Compose de sandbox mais seguro
O Pi roda no repositório em uso e sobe o Docker, então não consegue apagar diretamente arquivos ou diretórios do disco físico
Foi possível passar uma configuração json de modelo personalizado para dentro do contêiner, e isso funcionou relativamente bem em ambiente de experimentação

Limitações que ainda restam

Os modelos locais ainda podem ter inferência lenta, janelas de contexto pequenas, e o contexto disponível é limitado pelo hardware existente
O ecossistema ficou muito mais fácil graças a ferramentas como o LM Studio e o botão Use This Model do Hugging Face
As primeiras versões sofrem com problemas de incompatibilidade de template de prompt, mas esses problemas costumam ser corrigidos muito rapidamente
Ainda é difícil ter certeza de que já estão prontos para uso direto em desenvolvimento de software de produção

Vantagens dos modelos locais e possibilidades de experimentação

Com modelos locais, é possível observar quase tudo, inclusive o processo de inferência de tokens em tempo real
Dá para verificar diretamente o fluxo de tokens de entrada e saída
É possível mudar a janela de contexto local e observar quando o desempenho melhora ou piora
Dá para investigar como os tokens são processados na GPU e também alterar o prompt de sistema e as configurações de quantização
Também é possível colocar modelos para competir entre si ou mudar configurações do lado do harness e observar os resultados, ampliando continuamente as possibilidades de experimentação

7 comentários

syate 2026-06-18

"Por causa do tamanho naturalmente granular das tarefas e do fato de que modelos pequenos preferem instruções específicas, o usuário acaba entendendo o código com muito mais profundidade.
Isso não significa que modelos locais não consigam resumir a estrutura do projeto ou encontrar bugs; significa que eles recompensam um estilo de trabalho muito mais manual."

Há uma parte impressionante nos comentários.
Concordo com isso.

emptybynature 2026-06-17

Se for para dizer que os modelos locais ficaram realmente utilizáveis, então teríamos que chamar o ChatGPT de superinteligente... os modelos locais ainda estão muito, muito longe disso. Pelo meu critério, para dizer que um modelo local é utilizável, teria que rodar modelos de 100B ou mais com 4 RTX 5090; só assim daria para considerar "minimamente" utilizável.

GN⁺ 2026-06-17

Opiniões no Lobste.rs

No meu fluxo de trabalho atual eu não gostaria muito de usar esse tipo de ferramenta, mas minha maior reclamação vem da centralização, e vejo esse impacto se espalhando também para áreas como meio ambiente, privacidade e distribuição de poder
Por isso, é bom ver que os modelos que podem ser hospedados localmente estão realmente melhorando
- Acho bem provável que o futuro vá nessa direção. Ninguém quer enviar todos os seus dados para um provedor de serviço, e aumento de preço ou até a disponibilidade do modelo ficam totalmente nas mãos do provedor
  Como vimos no caso Fable da Anthropic, há um risco real de você mesmo se tornar um servo digital
  Se os modelos locais e os harnesses de programação continuarem melhorando, haverá menos motivo para alugar modelos de um provedor, mesmo que o desempenho geral dos modelos locais seja inferior. Por exemplo, muita gente usa DeepSeek em vez de Claude porque é suficientemente útil e muito mais barato, e no caso local, a partir de certo ponto, mais importante do que poder alugar um modelo melhor passa a ser se o modelo local consegue dar conta do trabalho
  Também há grande potencial para customizar e ajustar as ferramentas. Não vi muitos casos de criação de LoRA para um idioma específico, mas em áreas limitadas isso pode tornar o modelo muito mais eficaz, e nessa etapa ele pode até se sair melhor do que um enorme modelo de uso geral
- Os modelos locais são interessantes por serem diferentes, e algumas dessas diferenças podem ser vantagens. O consumo de energia para inferência fica mais ou menos no nível de uma GPU gamer topo de linha, e mesmo isso só é usado quando os tokens estão sendo gerados, normalmente podendo ser limitado a cerca de 300W. Se você escreve código enquanto vai lendo, acaba usando geração de tokens em algo como 25% do dia de trabalho, então eu estimaria uma potência sustentada de uns 75W
  A energia para treinar alguns modelos de tamanho local por ano pode ser algo pequeno o bastante para ser absorvido pelo ruído de fundo da civilização industrial. Os dados ficam todos no ambiente local, e você também deixa de incentivar tanto os mercadores
  Os modelos locais tendem a ser mais bobos, e isso na verdade faz você ficar mais próximo do trabalho. No Fable, se você disser “preencha esta rua com casas”, ele pode despejar um monte de McMansions malfeitas; no Qwen3.6 27B, parece mais natural dizer “pinte estes quatro cômodos”. Pelo tamanho natural dos blocos de trabalho e pelo fato de modelos menores preferirem instruções concretas, o usuário acaba entendendo o código com muito mais detalhe
  Isso não quer dizer que modelos locais não consigam resumir a estrutura de um projeto ou encontrar bugs; quer dizer que eles recompensam um estilo de trabalho bem mais manual. O Fable foi o modelo que realmente nos convenceu de que estamos ferrados, e ele de fato consegue cuspir um projeto inteiro de uma vez. Essas “McMansions” parecem boas à primeira vista, mas o telhado vaza, a fundação é instável e o acabamento é só bom o bastante para vender. Claro, no mercado ele provavelmente teria muito sucesso, e mesmo o Fable num dia ruim ainda é melhor do que muito SaaS corporativo. Claro, tirando compliance e segurança
  Então considero os modelos locais ferramentas interessantes, mas realmente não estou nada animado com a bagunça que a próxima geração de modelos de fronteira vai criar
Tenho curiosidade sobre para que pessoas da academia usam modelos locais. O qwen3-coder:30b foi razoável para edição de LaTeX e para consultar resultados em artigos processados por OCR, mas queria saber se há outros usos
- Estou na academia. Não uso programação agêntica e não uso LLMs de forma alguma para escrever. Às vezes até acho que a maioria dos editores proíbe isso
  Sempre que tentei, fiquei muito decepcionado, e o trabalho de configurar um pipeline de inferência local também é grande e frágil. A GPU do notebook é pequena demais, então preciso usar um cluster compartilhado de computação
  De vez em quando uso ollama/qwen3-coder ou duck.ai. É mais quando não consigo pensar nas palavras-chave para pesquisar como fazer algo em uma linguagem ou biblioteca com a qual não tenho familiaridade, ou para obter ajuda em tarefas bem específicas que não domino muito, como regex ou SQL
- Uso para fazer o rascunho de traduções. Ao revisar essas traduções, corrigi vários erros em materiais de aula que eu poderia ter encontrado mesmo sem traduzir, mas que na prática não percebi antes. Isso é especialmente relevante quando se ensina em um ambiente que não usa só um idioma
  Também uso para gerar de uma vez o primeiro rascunho de pequenos scripts ou mini ferramentas pessoais. Por exemplo, um harness para excluir TikZ de pedidos de tradução. Depois ainda precisa depurar, mas depurar é bem mais divertido do que escrever manualmente as partes tediosas que o LLM acerta mais ou menos. A estratégia de validação é ainda mais importante do que em algo escrito à mão e, idealmente, deveria ser do tipo em que “os bugs restantes ficam relativamente óbvios quando a ferramenta é executada”
  Sinceramente, fiquei surpreso que o Qwen3.6 não fosse tão ruim quanto eu esperava para fazer rascunhos de soluções de exemplo para exercícios padrão de redação de provas matemáticas. Ao editar para encaixar no estilo desejado, isso pode acabar ficando com cara de mingau de machado / sopa de pedra, mas algumas fórmulas podem muito bem sobreviver até o fim. No fim, tudo depende de quão tediosa é a tarefa
- Basicamente, uso para revisão que vai além de correção ortográfica/gramatical. Ou então para escrever scripts rápidos de análise de dados, mas com finalidade exploratória, como experimentos piloto, não para a análise final

kaboom45 2026-06-17

Estou rodando o qwen3.6 27b a 1 token por segundo em um PC com DDR3 + i5 e gráficos integrados.
Antigamente, mesmo esperando desse jeito, só saíam resultados ruins, mas agora pelo menos já sai algo que dá para usar.
Em 6 meses, evoluiu a ponto de um nível de desempenho que antes exigia modelos na faixa de 80~120B agora ser suficientemente atendido por algo na faixa de 30B, e acho que daqui a cerca de 1 ano talvez vejamos desempenho de código no nível do opus4.8 e do gpt5.5 também em 30B.
Se isso acontecer, acredito que modelos locais como esse, que conseguem gerar de 50 a 70 mil tokens por dia, serão uma opção perfeitamente viável como secundária.

beoks 2026-06-17

Para usar modelos locais de forma adequada, é preciso ter um hardware à altura, mas como o hardware também é caro demais, a menos que haja um motivo especial como segurança, por enquanto ainda parece que assinaturas ou chamadas de API oferecem um custo-benefício melhor.

kaydash 2026-06-17

Para agentes até dá pra quebrar um galho, mas para agentes de programação é meio...