33 pontos por GN⁺ 25 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Resumo do procedimento para configurar o Ollama e o modelo Gemma 4 para executar automaticamente e permanecer carregados na memória em um Mac mini com Apple Silicon
  • Usando Homebrew, Launch Agent e variáveis de ambiente, o modelo é carregado automaticamente mesmo após reinicializações, e o modelo 8B opera de forma estável com cerca de 9,6GB de memória
  • O Ollama v0.19 ou superior oferece suporte ao backend MLX e ao formato NVFP4, melhorando o desempenho de inferência em ambientes Apple e NVIDIA
  • O modelo 26B não é recomendado por consumir muita memória, e o modelo 8B é mais adequado para uso prático
  • Pela API local, é possível fazer requisições de Chat Completion compatíveis com OpenAI, sendo útil para montar um ambiente de serviço LLM persistente no Mac mini

Preparação prévia

  • É necessário um Mac mini baseado em Apple Silicon (M1~M5)
  • Para rodar o modelo Gemma 4 (8B), recomenda-se no mínimo 16GB de memória unificada
  • É necessário um ambiente macOS com Homebrew instalado

Step 1 — Instalar o Ollama

  • Instale o app macOS do Ollama usando o cask do Homebrew

    brew install --cask ollama-app
    
  • Após a instalação, Ollama.app será colocado em /Applications/ e a CLI em /opt/homebrew/bin/ollama

  • Inclui atualização automática e o backend MLX

Step 2 — Executar e verificar o Ollama

  • Execute o app Ollama

    open -a Ollama
    
  • Aguarde a inicialização do servidor após o ícone aparecer na barra de menus

  • Verifique o estado de execução

    ollama list
    

Step 3 — Baixar o modelo Gemma 4

  • Baixe o modelo

    ollama pull gemma4
    
  • Após baixar cerca de 9,6GB, confirme com ollama list

  • O modelo 26B consome a maior parte dos 24GB de memória, causando queda na responsividade do sistema

    • Recomenda-se usar o modelo padrão 8B (quantização Q4_K_M)

Step 4 — Testar o modelo e verificar aceleração por GPU

  • Teste o modelo

    ollama run gemma4:latest "Hello, what model are you?"
    
  • Verifique o estado da aceleração por GPU

    ollama ps
    
    • Exemplo: proporção CPU/GPU de 14%/86%

Step 5 — Configurar execução automática e permanência do modelo

  • 5a. Executar automaticamente o app Ollama

    • Clique no ícone da barra de menus → ative Launch at Login
    • Ou adicione manualmente em System Settings > General > Login Items
  • 5b. Pré-carregamento automático do Gemma 4

    • Crie um Launch Agent para carregar automaticamente o modelo após o início do Ollama e mantê-lo ativo a cada 5 minutos

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • Carregue o agente

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • Um prompt vazio é enviado a cada 5 minutos para manter o modelo na memória

  • 5c. Manter o modelo indefinidamente

    • Por padrão, o modelo é descarregado após 5 minutos de inatividade

    • Para mantê-lo indefinidamente

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • Para preservar isso mesmo após reiniciar, adicione em ~/.zshrc

Step 6 — Validar a configuração

  • Verifique se o servidor Ollama está em execução

    ollama list
    
  • Verifique se o modelo está carregado na memória

    ollama ps
    
  • Verifique se o Launch Agent está registrado

    launchctl list | grep ollama
    
  • Exemplo de saída esperada

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

Acesso à API

Comandos úteis

Comando Descrição
ollama list Lista de modelos baixados
ollama ps Modelos em execução e uso de memória
ollama run gemma4:latest Execução interativa
ollama stop gemma4:latest Descarrega o modelo
ollama pull gemma4:latest Atualiza para a versão mais recente
ollama rm gemma4:latest Remove o modelo

Remover o Ollama e desativar a execução automática

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Principais melhorias do Ollama v0.19+ (31 de março de 2026)

  • Backend MLX (Apple Silicon)

    • Usa automaticamente o framework Apple MLX para melhorar a velocidade de inferência
    • Chips da linha M5 contam com aceleração adicional via GPU Neural Accelerator
    • Chips M4 e anteriores também recebem melhorias gerais de velocidade baseadas em MLX
  • Formato NVFP4 (NVIDIA)

    • O formato NVFP4 reduz largura de banda de memória e espaço de armazenamento mantendo a precisão
    • Compatível com modelos gerados por ferramentas de otimização de modelos da NVIDIA
  • Melhorias de cache (codificação e tarefas de agentes)

    • Redução do uso de memória: reaproveitamento de cache entre conversas para mais eficiência
    • Checkpoints inteligentes: menor volume de processamento de prompt e respostas mais rápidas
    • Remoção inteligente de cache: preserva prefixos comuns para melhorar a eficiência em tarefas ramificadas

Notas adicionais

  • O modelo Gemma 4 (8B) usa cerca de 9,6GB de memória
    • Em um Mac mini com 24GB, isso deixa cerca de 14GB livres
  • O modelo 26B usa cerca de 17GB, causando swap do sistema e queda de responsividade
    • O modelo 8B oferece desempenho estável

Links de referência

1 comentários

 
GN⁺ 25 일 전
Comentários do Hacker News
  • Quem estiver usando um modelo open weight pela primeira vez logo após o lançamento precisa saber que sempre há bugs na implementação inicial e na quantização
    Como cada projeto corre para dar suporte na data de lançamento, os resultados podem não estar corretos
    Já foram encontrados vários problemas na implementação do tokenizer, e a quantização que usa imatrix também pode ser problemática
    Nas próximas semanas vão aparecer muitos posts do tipo “a chamada de ferramentas não funciona e o modelo é uma bagunça”. Na verdade, são pessoas usando implementações quebradas
    Para usar modelos cutting-edge, é preciso estar preparado para atualizar o motor de inferência com frequência e baixar de novo as versões quantizadas sempre que mudarem
    Como há uma corrida para acompanhar o dia do lançamento, o processo vira algo como “se saiu token de saída, vamos publicar”, então a verificação de precisão fica para depois

    • Tenho curiosidade sobre qual inference engine usar em Linux com uma 4090
      Enfrento com frequência problemas em que a chamada de ferramentas não funciona, mas não sei se o problema é do modelo ou do ollama
  • Estou pensando em comprar um Mac mini para rodar modelos localmente
    Uso o Claude principalmente para trabalho de desenvolvimento e projetos de homelab, e queria saber se os modelos abertos já são utilizáveis nesse nível ou se ainda vale mais a pena manter a assinatura de 20 dólares por mês

    • Para tarefas pequenas, dá para usar, mas é bem provável que decepcione se você tentar usar como o Claude
      Antes de comprar hardware e hospedar por conta própria, recomendo testar primeiro em um serviço hospedado. Dá para sentir os limites do modelo de antemão
    • Eu uso modelos abertos desde o vazamento do llama. Eles estão melhorando aos poucos, e é legal poder rodar um bloco de conhecimento localmente sem internet
      Mas é preciso manter as expectativas baixas. Independentemente do que digam os benchmarks, não dá para comparar com Sonnet ou Opus
    • O melhor é testar você mesmo gastando só 10 dólares em créditos no OpenRouter. Pela minha experiência, ainda falta bastante, mas é divertido conferir de vez em quando
    • O gpt-oss-20B tinha um desempenho de agente bem decente, mas não dá para comparar com os modelos pagos do Claude Code. Ouvi dizer que o 120B é bem melhor
  • Testei em um MacBook Pro M4 (36GB) com LM Studio usando o frontend open code, mas a chamada de ferramentas falhava o tempo todo, então voltei para o qwen
    Queria saber se alguém teve sucesso em um ambiente parecido

    • Falha de chamada de ferramentas é problema de implementação do motor de inferência ou da quantização. Recomendo tentar de novo daqui a alguns dias, depois de atualizar. Isso acontece em todo lançamento de modelo aberto
    • No meu M5 (32GB), ao rodar o LM Studio, o computador travou e precisei reiniciar
      Mas o gemma-4-26B-A4B-it-GGUF:Q4_K_M funcionou bem no llama.cpp. Tanto a velocidade (38 tokens por segundo) quanto a qualidade foram impressionantes
    • Tive o mesmo problema. Na versão Q_8 do LM Studio, ele entrou em modo loop, repetindo comandos sem parar
    • Pelo que outras pessoas disseram, é preciso atualizar tanto a versão principal quanto a de runtime
    • Também confirmei falha de chamada de ferramentas em um servidor Ubuntu (charmbracelet/crush)
  • Estou procurando um modelo aberto que possa substituir o Claude Sonnet 4.5
    Queria saber se há algo no Ollama Cloud ou entre os modelos da OpenRouter.ai que possa servir como substituto
    Quero ouvir a experiência de uso de desenvolvedores reais, mais do que benchmarks

    • Em resumo, não existe modelo que substitua Sonnet e Opus. A família GPT Codex ainda continua excelente
      Já usei MiniMax, GLM, Qwen, Kimi e outros, mas todos têm limitações grandes em tarefas complexas
    • Sinto que GLM5 e KimiK2.5 chegam bem perto de ser alternativas ao Sonnet
  • Queria saber se alguém já rodou isso em um M5 Air (32GB, 10 núcleos) com build do oMLX. Também queria saber se a chamada de ferramentas funciona

    • A release v0.3.2 está com suporte parcial. A geração de texto funciona, mas o tratamento de tokens especiais ainda está incompleto
      Pessoalmente, estou testando adicionar suporte a chamada de ferramentas e ao thinking com <|channel>
    • Ouvi dizer que alguém rodou o Gemma 4 E4B no MLX (link)
  • É estranho que as etapas para o “Gemma 4 12B” mudem para 26B no meio do caminho
    Além disso, no ollama ps aparece “14%/86% CPU/GPU”; isso não quer dizer que o desempenho da GPU é ruim?

    • No Mac mini, a CPU e a GPU compartilham memória, então dá para ignorar essa proporção
  • Rodar um modelo 26B localmente é impressionante, mas a latência é alta demais, então fica difícil usar para algo além de chat
    Nós trocamos o trabalho de geração de imagens de inferência local para chamadas de API. O cold start e o tempo de geração eram longos demais
    Local é ótimo para experimentação, mas, para workloads de produção que exigem execução pontual, a API ainda é mais vantajosa
    Ainda assim, uma configuração local é muito útil quando se lida com dados sensíveis à privacidade

  • Tenho curiosidade sobre por que tanta gente usa Ollama. Testei e achei simplificado demais
    Hoje em dia, o Unsloth Studio parece um padrão melhor para iniciantes

    • O Ollama é acessível porque basta uma linha com ollama pull para baixar um modelo
      Não existe a complexidade de ter que procurar manualmente o nome e a versão do modelo no Hugging Face
      Mas, se quiser se aprofundar, no fim você vai ter que aprender a estrutura do servidor
    • O Ollama teve first-mover advantage no começo. Na época, compilar o llama.cpp manualmente era uma barreira
      Hoje eu recomendaria mais o LM Studio. Fico curioso sobre o que o Unsloth Studio tem de diferente
    • Não sei por que as pessoas não mencionam mais o LMStudio. Migrei há alguns meses e achei muito melhor
    • A popularidade do Ollama se deve ao efeito de divulgação. No Reddit, Discord e outros lugares, ele foi promovido como ‘um frontend fácil para o llama.cpp’
      Para realmente vencer, o certo é apagar o Ollama e ir direto para o llama.cpp
    • Eu perguntaria o contrário — qual é exatamente o problema do Ollama?
      Ele roda bem até com GPU de 16GB e também serve muito bem como backend para experimentar outros frontends
  • Queria saber se dá para usar esse modelo para programação localmente e quais IDE ou harness são compatíveis

    • A maioria dos harness permite programação local se você apontar para um endpoint de API compatível com OpenAI
      Mas a versão mais recente do Codex tem problemas de compatibilidade de API com o llama.cpp
      Eu prefiro o Pi. É minimalista e expansível. Claude Code e OpenCode também são bastante usados
    • É preciso haver suporte a chamada de ferramentas, e muitas quantizações gguf não oferecem isso
      Para resolver isso, criei um proxy chamado Petsitter, que emula recursos entre o motor de inferência e o harness
      Link do GitHub
      Basta colocar o Petsitter sobre o Ollama e, acima dele, o harness de agente
      A versão mais recente do Ollama já oferece suporte a "completion", "vision", "audio", "tools", "thinking"
  • Ontem à noite, para usar esse modelo, era preciso instalar o pré-lançamento do Ollama v0.20. Por isso, fico em dúvida se o guia atual está correto