Resumo da configuração do Ollama e do modelo Gemma 4 26B no Mac mini (em abril de 2026)
(gist.github.com/greenstevester)- Resumo do procedimento para configurar o Ollama e o modelo Gemma 4 para executar automaticamente e permanecer carregados na memória em um Mac mini com Apple Silicon
- Usando Homebrew, Launch Agent e variáveis de ambiente, o modelo é carregado automaticamente mesmo após reinicializações, e o modelo 8B opera de forma estável com cerca de 9,6GB de memória
- O Ollama v0.19 ou superior oferece suporte ao backend MLX e ao formato NVFP4, melhorando o desempenho de inferência em ambientes Apple e NVIDIA
- O modelo 26B não é recomendado por consumir muita memória, e o modelo 8B é mais adequado para uso prático
- Pela API local, é possível fazer requisições de Chat Completion compatíveis com OpenAI, sendo útil para montar um ambiente de serviço LLM persistente no Mac mini
Preparação prévia
- É necessário um Mac mini baseado em Apple Silicon (M1~M5)
- Para rodar o modelo Gemma 4 (8B), recomenda-se no mínimo 16GB de memória unificada
- É necessário um ambiente macOS com Homebrew instalado
Step 1 — Instalar o Ollama
-
Instale o app macOS do Ollama usando o cask do Homebrew
brew install --cask ollama-app -
Após a instalação, Ollama.app será colocado em
/Applications/e a CLI em/opt/homebrew/bin/ollama -
Inclui atualização automática e o backend MLX
Step 2 — Executar e verificar o Ollama
-
Execute o app Ollama
open -a Ollama -
Aguarde a inicialização do servidor após o ícone aparecer na barra de menus
-
Verifique o estado de execução
ollama list
Step 3 — Baixar o modelo Gemma 4
-
Baixe o modelo
ollama pull gemma4 -
Após baixar cerca de 9,6GB, confirme com
ollama list -
O modelo 26B consome a maior parte dos 24GB de memória, causando queda na responsividade do sistema
- Recomenda-se usar o modelo padrão 8B (quantização Q4_K_M)
Step 4 — Testar o modelo e verificar aceleração por GPU
-
Teste o modelo
ollama run gemma4:latest "Hello, what model are you?" -
Verifique o estado da aceleração por GPU
ollama ps- Exemplo: proporção CPU/GPU de 14%/86%
Step 5 — Configurar execução automática e permanência do modelo
-
5a. Executar automaticamente o app Ollama
- Clique no ícone da barra de menus → ative Launch at Login
- Ou adicione manualmente em System Settings > General > Login Items
-
5b. Pré-carregamento automático do Gemma 4
-
Crie um Launch Agent para carregar automaticamente o modelo após o início do Ollama e mantê-lo ativo a cada 5 minutos
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF -
Carregue o agente
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist -
Um prompt vazio é enviado a cada 5 minutos para manter o modelo na memória
-
-
5c. Manter o modelo indefinidamente
-
Por padrão, o modelo é descarregado após 5 minutos de inatividade
-
Para mantê-lo indefinidamente
launchctl setenv OLLAMA_KEEP_ALIVE "-1" -
Para preservar isso mesmo após reiniciar, adicione em
~/.zshrc
-
Step 6 — Validar a configuração
-
Verifique se o servidor Ollama está em execução
ollama list -
Verifique se o modelo está carregado na memória
ollama ps -
Verifique se o Launch Agent está registrado
launchctl list | grep ollama -
Exemplo de saída esperada
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
Acesso à API
-
Endpoint da API local:
http://localhost:11434 -
Exemplo de Chat Completion compatível com OpenAI
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
Comandos úteis
| Comando | Descrição |
|---|---|
ollama list |
Lista de modelos baixados |
ollama ps |
Modelos em execução e uso de memória |
ollama run gemma4:latest |
Execução interativa |
ollama stop gemma4:latest |
Descarrega o modelo |
ollama pull gemma4:latest |
Atualiza para a versão mais recente |
ollama rm gemma4:latest |
Remove o modelo |
Remover o Ollama e desativar a execução automática
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
Principais melhorias do Ollama v0.19+ (31 de março de 2026)
-
Backend MLX (Apple Silicon)
- Usa automaticamente o framework Apple MLX para melhorar a velocidade de inferência
- Chips da linha M5 contam com aceleração adicional via GPU Neural Accelerator
- Chips M4 e anteriores também recebem melhorias gerais de velocidade baseadas em MLX
-
Formato NVFP4 (NVIDIA)
- O formato NVFP4 reduz largura de banda de memória e espaço de armazenamento mantendo a precisão
- Compatível com modelos gerados por ferramentas de otimização de modelos da NVIDIA
-
Melhorias de cache (codificação e tarefas de agentes)
- Redução do uso de memória: reaproveitamento de cache entre conversas para mais eficiência
- Checkpoints inteligentes: menor volume de processamento de prompt e respostas mais rápidas
- Remoção inteligente de cache: preserva prefixos comuns para melhorar a eficiência em tarefas ramificadas
Notas adicionais
- O modelo Gemma 4 (8B) usa cerca de 9,6GB de memória
- Em um Mac mini com 24GB, isso deixa cerca de 14GB livres
- O modelo 26B usa cerca de 17GB, causando swap do sistema e queda de responsividade
- O modelo 8B oferece desempenho estável
1 comentários
Comentários do Hacker News
Quem estiver usando um modelo open weight pela primeira vez logo após o lançamento precisa saber que sempre há bugs na implementação inicial e na quantização
Como cada projeto corre para dar suporte na data de lançamento, os resultados podem não estar corretos
Já foram encontrados vários problemas na implementação do tokenizer, e a quantização que usa imatrix também pode ser problemática
Nas próximas semanas vão aparecer muitos posts do tipo “a chamada de ferramentas não funciona e o modelo é uma bagunça”. Na verdade, são pessoas usando implementações quebradas
Para usar modelos cutting-edge, é preciso estar preparado para atualizar o motor de inferência com frequência e baixar de novo as versões quantizadas sempre que mudarem
Como há uma corrida para acompanhar o dia do lançamento, o processo vira algo como “se saiu token de saída, vamos publicar”, então a verificação de precisão fica para depois
Enfrento com frequência problemas em que a chamada de ferramentas não funciona, mas não sei se o problema é do modelo ou do ollama
Estou pensando em comprar um Mac mini para rodar modelos localmente
Uso o Claude principalmente para trabalho de desenvolvimento e projetos de homelab, e queria saber se os modelos abertos já são utilizáveis nesse nível ou se ainda vale mais a pena manter a assinatura de 20 dólares por mês
Antes de comprar hardware e hospedar por conta própria, recomendo testar primeiro em um serviço hospedado. Dá para sentir os limites do modelo de antemão
Mas é preciso manter as expectativas baixas. Independentemente do que digam os benchmarks, não dá para comparar com Sonnet ou Opus
Testei em um MacBook Pro M4 (36GB) com LM Studio usando o frontend open code, mas a chamada de ferramentas falhava o tempo todo, então voltei para o qwen
Queria saber se alguém teve sucesso em um ambiente parecido
Mas o gemma-4-26B-A4B-it-GGUF:Q4_K_M funcionou bem no llama.cpp. Tanto a velocidade (38 tokens por segundo) quanto a qualidade foram impressionantes
Estou procurando um modelo aberto que possa substituir o Claude Sonnet 4.5
Queria saber se há algo no Ollama Cloud ou entre os modelos da OpenRouter.ai que possa servir como substituto
Quero ouvir a experiência de uso de desenvolvedores reais, mais do que benchmarks
Já usei MiniMax, GLM, Qwen, Kimi e outros, mas todos têm limitações grandes em tarefas complexas
Queria saber se alguém já rodou isso em um M5 Air (32GB, 10 núcleos) com build do oMLX. Também queria saber se a chamada de ferramentas funciona
Pessoalmente, estou testando adicionar suporte a chamada de ferramentas e ao thinking com
<|channel>É estranho que as etapas para o “Gemma 4 12B” mudem para 26B no meio do caminho
Além disso, no ollama ps aparece “14%/86% CPU/GPU”; isso não quer dizer que o desempenho da GPU é ruim?
Rodar um modelo 26B localmente é impressionante, mas a latência é alta demais, então fica difícil usar para algo além de chat
Nós trocamos o trabalho de geração de imagens de inferência local para chamadas de API. O cold start e o tempo de geração eram longos demais
Local é ótimo para experimentação, mas, para workloads de produção que exigem execução pontual, a API ainda é mais vantajosa
Ainda assim, uma configuração local é muito útil quando se lida com dados sensíveis à privacidade
Tenho curiosidade sobre por que tanta gente usa Ollama. Testei e achei simplificado demais
Hoje em dia, o Unsloth Studio parece um padrão melhor para iniciantes
ollama pullpara baixar um modeloNão existe a complexidade de ter que procurar manualmente o nome e a versão do modelo no Hugging Face
Mas, se quiser se aprofundar, no fim você vai ter que aprender a estrutura do servidor
Hoje eu recomendaria mais o LM Studio. Fico curioso sobre o que o Unsloth Studio tem de diferente
Para realmente vencer, o certo é apagar o Ollama e ir direto para o llama.cpp
Ele roda bem até com GPU de 16GB e também serve muito bem como backend para experimentar outros frontends
Queria saber se dá para usar esse modelo para programação localmente e quais IDE ou harness são compatíveis
Mas a versão mais recente do Codex tem problemas de compatibilidade de API com o llama.cpp
Eu prefiro o Pi. É minimalista e expansível. Claude Code e OpenCode também são bastante usados
Para resolver isso, criei um proxy chamado Petsitter, que emula recursos entre o motor de inferência e o harness
Link do GitHub
Basta colocar o Petsitter sobre o Ollama e, acima dele, o harness de agente
A versão mais recente do Ollama já oferece suporte a
"completion", "vision", "audio", "tools", "thinking"Ontem à noite, para usar esse modelo, era preciso instalar o pré-lançamento do Ollama v0.20. Por isso, fico em dúvida se o guia atual está correto