Resumo da configuração do Ollama e do modelo Gemma 4 26B no Mac mini (em abril de 2026)

(gist.github.com/greenstevester)

33 pontos por GN⁺ 25 일 전 | 1 comentários | Compartilhar no WhatsApp

Resumo do procedimento para configurar o Ollama e o modelo Gemma 4 para executar automaticamente e permanecer carregados na memória em um Mac mini com Apple Silicon
Usando Homebrew, Launch Agent e variáveis de ambiente, o modelo é carregado automaticamente mesmo após reinicializações, e o modelo 8B opera de forma estável com cerca de 9,6GB de memória
O Ollama v0.19 ou superior oferece suporte ao backend MLX e ao formato NVFP4, melhorando o desempenho de inferência em ambientes Apple e NVIDIA
O modelo 26B não é recomendado por consumir muita memória, e o modelo 8B é mais adequado para uso prático
Pela API local, é possível fazer requisições de Chat Completion compatíveis com OpenAI, sendo útil para montar um ambiente de serviço LLM persistente no Mac mini

Preparação prévia

É necessário um Mac mini baseado em Apple Silicon (M1~M5)
Para rodar o modelo Gemma 4 (8B), recomenda-se no mínimo 16GB de memória unificada
É necessário um ambiente macOS com Homebrew instalado

Step 1 — Instalar o Ollama

Instale o app macOS do Ollama usando o cask do Homebrew
```
brew install --cask ollama-app
```
Após a instalação, Ollama.app será colocado em /Applications/ e a CLI em /opt/homebrew/bin/ollama
Inclui atualização automática e o backend MLX

Step 2 — Executar e verificar o Ollama

Execute o app Ollama
```
open -a Ollama
```
Aguarde a inicialização do servidor após o ícone aparecer na barra de menus
Verifique o estado de execução
```
ollama list
```

Step 3 — Baixar o modelo Gemma 4

Baixe o modelo
```
ollama pull gemma4
```
Após baixar cerca de 9,6GB, confirme com ollama list
O modelo 26B consome a maior parte dos 24GB de memória, causando queda na responsividade do sistema
- Recomenda-se usar o modelo padrão 8B (quantização Q4_K_M)

Step 4 — Testar o modelo e verificar aceleração por GPU

Teste o modelo

ollama run gemma4:latest "Hello, what model are you?"

Verifique o estado da aceleração por GPU
```
ollama ps
```
- Exemplo: proporção CPU/GPU de 14%/86%

Step 5 — Configurar execução automática e permanência do modelo

5a. Executar automaticamente o app Ollama
- Clique no ícone da barra de menus → ative Launch at Login
- Ou adicione manualmente em System Settings > General > Login Items
5b. Pré-carregamento automático do Gemma 4
- Crie um Launch Agent para carregar automaticamente o modelo após o início do Ollama e mantê-lo ativo a cada 5 minutos
```
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
...
EOF
```
- Carregue o agente
```
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
```
- Um prompt vazio é enviado a cada 5 minutos para manter o modelo na memória
5c. Manter o modelo indefinidamente
- Por padrão, o modelo é descarregado após 5 minutos de inatividade
- Para mantê-lo indefinidamente
```
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
```
- Para preservar isso mesmo após reiniciar, adicione em ~/.zshrc

Step 6 — Validar a configuração

Verifique se o servidor Ollama está em execução
```
ollama list
```
Verifique se o modelo está carregado na memória
```
ollama ps
```
Verifique se o Launch Agent está registrado
```
launchctl list | grep ollama
```

Exemplo de saída esperada

gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

Acesso à API

Endpoint da API local: http://localhost:11434

Exemplo de Chat Completion compatível com OpenAI

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:latest",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Comandos úteis

Comando	Descrição
`ollama list`	Lista de modelos baixados
`ollama ps`	Modelos em execução e uso de memória
`ollama run gemma4:latest`	Execução interativa
`ollama stop gemma4:latest`	Descarrega o modelo
`ollama pull gemma4:latest`	Atualiza para a versão mais recente
`ollama rm gemma4:latest`	Remove o modelo

Remover o Ollama e desativar a execução automática

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Principais melhorias do Ollama v0.19+ (31 de março de 2026)

Backend MLX (Apple Silicon)
- Usa automaticamente o framework Apple MLX para melhorar a velocidade de inferência
- Chips da linha M5 contam com aceleração adicional via GPU Neural Accelerator
- Chips M4 e anteriores também recebem melhorias gerais de velocidade baseadas em MLX
Formato NVFP4 (NVIDIA)
- O formato NVFP4 reduz largura de banda de memória e espaço de armazenamento mantendo a precisão
- Compatível com modelos gerados por ferramentas de otimização de modelos da NVIDIA
Melhorias de cache (codificação e tarefas de agentes)
- Redução do uso de memória: reaproveitamento de cache entre conversas para mais eficiência
- Checkpoints inteligentes: menor volume de processamento de prompt e respostas mais rápidas
- Remoção inteligente de cache: preserva prefixos comuns para melhorar a eficiência em tarefas ramificadas

Notas adicionais

O modelo Gemma 4 (8B) usa cerca de 9,6GB de memória
- Em um Mac mini com 24GB, isso deixa cerca de 14GB livres
O modelo 26B usa cerca de 17GB, causando swap do sistema e queda de responsividade
- O modelo 8B oferece desempenho estável

Links de referência

1 comentários

GN⁺ 25 일 전

Comentários do Hacker News

Quem estiver usando um modelo open weight pela primeira vez logo após o lançamento precisa saber que sempre há bugs na implementação inicial e na quantização
Como cada projeto corre para dar suporte na data de lançamento, os resultados podem não estar corretos
Já foram encontrados vários problemas na implementação do tokenizer, e a quantização que usa imatrix também pode ser problemática
Nas próximas semanas vão aparecer muitos posts do tipo “a chamada de ferramentas não funciona e o modelo é uma bagunça”. Na verdade, são pessoas usando implementações quebradas
Para usar modelos cutting-edge, é preciso estar preparado para atualizar o motor de inferência com frequência e baixar de novo as versões quantizadas sempre que mudarem
Como há uma corrida para acompanhar o dia do lançamento, o processo vira algo como “se saiu token de saída, vamos publicar”, então a verificação de precisão fica para depois
- Tenho curiosidade sobre qual inference engine usar em Linux com uma 4090
  Enfrento com frequência problemas em que a chamada de ferramentas não funciona, mas não sei se o problema é do modelo ou do ollama
Estou pensando em comprar um Mac mini para rodar modelos localmente
Uso o Claude principalmente para trabalho de desenvolvimento e projetos de homelab, e queria saber se os modelos abertos já são utilizáveis nesse nível ou se ainda vale mais a pena manter a assinatura de 20 dólares por mês
- Para tarefas pequenas, dá para usar, mas é bem provável que decepcione se você tentar usar como o Claude
  Antes de comprar hardware e hospedar por conta própria, recomendo testar primeiro em um serviço hospedado. Dá para sentir os limites do modelo de antemão
- Eu uso modelos abertos desde o vazamento do llama. Eles estão melhorando aos poucos, e é legal poder rodar um bloco de conhecimento localmente sem internet
  Mas é preciso manter as expectativas baixas. Independentemente do que digam os benchmarks, não dá para comparar com Sonnet ou Opus
- O melhor é testar você mesmo gastando só 10 dólares em créditos no OpenRouter. Pela minha experiência, ainda falta bastante, mas é divertido conferir de vez em quando
- O gpt-oss-20B tinha um desempenho de agente bem decente, mas não dá para comparar com os modelos pagos do Claude Code. Ouvi dizer que o 120B é bem melhor
Testei em um MacBook Pro M4 (36GB) com LM Studio usando o frontend open code, mas a chamada de ferramentas falhava o tempo todo, então voltei para o qwen
Queria saber se alguém teve sucesso em um ambiente parecido
- Falha de chamada de ferramentas é problema de implementação do motor de inferência ou da quantização. Recomendo tentar de novo daqui a alguns dias, depois de atualizar. Isso acontece em todo lançamento de modelo aberto
- No meu M5 (32GB), ao rodar o LM Studio, o computador travou e precisei reiniciar
  Mas o gemma-4-26B-A4B-it-GGUF:Q4_K_M funcionou bem no llama.cpp. Tanto a velocidade (38 tokens por segundo) quanto a qualidade foram impressionantes
- Tive o mesmo problema. Na versão Q_8 do LM Studio, ele entrou em modo loop, repetindo comandos sem parar
- Pelo que outras pessoas disseram, é preciso atualizar tanto a versão principal quanto a de runtime
- Também confirmei falha de chamada de ferramentas em um servidor Ubuntu (charmbracelet/crush)
Estou procurando um modelo aberto que possa substituir o Claude Sonnet 4.5
Queria saber se há algo no Ollama Cloud ou entre os modelos da OpenRouter.ai que possa servir como substituto
Quero ouvir a experiência de uso de desenvolvedores reais, mais do que benchmarks
- Em resumo, não existe modelo que substitua Sonnet e Opus. A família GPT Codex ainda continua excelente
  Já usei MiniMax, GLM, Qwen, Kimi e outros, mas todos têm limitações grandes em tarefas complexas
- Sinto que GLM5 e KimiK2.5 chegam bem perto de ser alternativas ao Sonnet
Queria saber se alguém já rodou isso em um M5 Air (32GB, 10 núcleos) com build do oMLX. Também queria saber se a chamada de ferramentas funciona
- A release v0.3.2 está com suporte parcial. A geração de texto funciona, mas o tratamento de tokens especiais ainda está incompleto
  Pessoalmente, estou testando adicionar suporte a chamada de ferramentas e ao thinking com <|channel>
- Ouvi dizer que alguém rodou o Gemma 4 E4B no MLX (link)
É estranho que as etapas para o “Gemma 4 12B” mudem para 26B no meio do caminho
Além disso, no ollama ps aparece “14%/86% CPU/GPU”; isso não quer dizer que o desempenho da GPU é ruim?
- No Mac mini, a CPU e a GPU compartilham memória, então dá para ignorar essa proporção
Rodar um modelo 26B localmente é impressionante, mas a latência é alta demais, então fica difícil usar para algo além de chat
Nós trocamos o trabalho de geração de imagens de inferência local para chamadas de API. O cold start e o tempo de geração eram longos demais
Local é ótimo para experimentação, mas, para workloads de produção que exigem execução pontual, a API ainda é mais vantajosa
Ainda assim, uma configuração local é muito útil quando se lida com dados sensíveis à privacidade
Tenho curiosidade sobre por que tanta gente usa Ollama. Testei e achei simplificado demais
Hoje em dia, o Unsloth Studio parece um padrão melhor para iniciantes
- O Ollama é acessível porque basta uma linha com ollama pull para baixar um modelo
  Não existe a complexidade de ter que procurar manualmente o nome e a versão do modelo no Hugging Face
  Mas, se quiser se aprofundar, no fim você vai ter que aprender a estrutura do servidor
- O Ollama teve first-mover advantage no começo. Na época, compilar o llama.cpp manualmente era uma barreira
  Hoje eu recomendaria mais o LM Studio. Fico curioso sobre o que o Unsloth Studio tem de diferente
- Não sei por que as pessoas não mencionam mais o LMStudio. Migrei há alguns meses e achei muito melhor
- A popularidade do Ollama se deve ao efeito de divulgação. No Reddit, Discord e outros lugares, ele foi promovido como ‘um frontend fácil para o llama.cpp’
  Para realmente vencer, o certo é apagar o Ollama e ir direto para o llama.cpp
- Eu perguntaria o contrário — qual é exatamente o problema do Ollama?
  Ele roda bem até com GPU de 16GB e também serve muito bem como backend para experimentar outros frontends
Queria saber se dá para usar esse modelo para programação localmente e quais IDE ou harness são compatíveis
- A maioria dos harness permite programação local se você apontar para um endpoint de API compatível com OpenAI
  Mas a versão mais recente do Codex tem problemas de compatibilidade de API com o llama.cpp
  Eu prefiro o Pi. É minimalista e expansível. Claude Code e OpenCode também são bastante usados
- É preciso haver suporte a chamada de ferramentas, e muitas quantizações gguf não oferecem isso
  Para resolver isso, criei um proxy chamado Petsitter, que emula recursos entre o motor de inferência e o harness
  Link do GitHub
  Basta colocar o Petsitter sobre o Ollama e, acima dele, o harness de agente
  A versão mais recente do Ollama já oferece suporte a "completion", "vision", "audio", "tools", "thinking"
Ontem à noite, para usar esse modelo, era preciso instalar o pré-lançamento do Ollama v0.20. Por isso, fico em dúvida se o guia atual está correto

Resumo da configuração do Ollama e do modelo Gemma 4 26B no Mac mini (em abril de 2026)

Preparação prévia

Step 1 — Instalar o Ollama

Step 2 — Executar e verificar o Ollama

Step 3 — Baixar o modelo Gemma 4

Step 4 — Testar o modelo e verificar aceleração por GPU

Step 5 — Configurar execução automática e permanência do modelo

5a. Executar automaticamente o app Ollama

5b. Pré-carregamento automático do Gemma 4

5c. Manter o modelo indefinidamente

Step 6 — Validar a configuração

Acesso à API

Comandos úteis

Remover o Ollama e desativar a execução automática

Principais melhorias do Ollama v0.19+ (31 de março de 2026)

Backend MLX (Apple Silicon)

Formato NVFP4 (NVIDIA)

Melhorias de cache (codificação e tarefas de agentes)

Notas adicionais

Links de referência

Leituras relacionadas

1 comentários

Comentários do Hacker News