Ollama agora roda com base em MLX no Apple Silicon
(ollama.com)- Foi lançada uma versão preview do Ollama baseada no framework Apple MLX, oferecendo ganhos de desempenho ao aproveitar a arquitetura de memória unificada do Apple Silicon
- Com o GPU Neural Accelerator dos chips da série M5, houve melhora tanto no TTFT (tempo até o primeiro token) quanto na velocidade de geração de tokens
- O suporte ao formato NVFP4 reduz a largura de banda de memória e os requisitos de armazenamento mantendo a precisão do modelo, além de permitir executar modelos otimizados com o NVIDIA Model Optimizer
- Com reutilização de cache e políticas inteligentes de cache, a eficiência de memória e a velocidade de resposta entre conversas aumentam, melhorando também a taxa de acerto de cache em prompts compartilhados
- No futuro, a empresa pretende ampliar a arquitetura suportada com mais modelos e um recurso de importação de modelos personalizados
Preview do Ollama rodando com MLX no Apple Silicon
- Foi apresentada uma nova versão preview do Ollama baseada no framework MLX da Apple
- Permite executar com mais rapidez no macOS assistentes pessoais (OpenClaw) ou agentes de código (Claude Code, OpenCode, Codex etc.)
- Melhora o desempenho ao aproveitar a arquitetura de memória unificada do Apple Silicon
-
Melhorias de desempenho no Apple Silicon
- O Ollama roda sobre o framework de machine learning MLX da Apple e acelera tanto o TTFT (tempo até o primeiro token) quanto a velocidade de geração de tokens usando o GPU Neural Accelerator dos chips M5, M5 Pro e M5 Max
- Em testes de 29 de março de 2026, foi comparado o modelo Qwen3.5-35B-A3B da Alibaba (quantizado em
NVFP4) com a implementação anterior do Ollama (Q4_K_M) - A versão Ollama 0.19 registrou desempenho de 1851 token/s de prefill e 134 token/s de decode ao executar em
int4
-
Suporte a NVFP4
- Suporta o formato NVFP4 da NVIDIA, alcançando manutenção da precisão do modelo junto com redução da largura de banda de memória e dos requisitos de armazenamento
- Garante consistência dos resultados entre ambientes de inferência e de produção que usam NVFP4
- Permite executar modelos otimizados com o Model Optimizer da NVIDIA
- Também estão planejadas outras precisões, conforme o projeto e o uso definidos pelos pesquisadores do Ollama e parceiros de hardware
-
Melhorias no sistema de cache
- A reutilização de cache reduz o uso de memória entre conversas e melhora a taxa de acerto de cache ao usar prompts de sistema compartilhados
- Foram introduzidos checkpoints inteligentes para reduzir o custo de processamento de prompts e melhorar a velocidade de resposta
- Com uma política inteligente de remoção de cache, prefixos compartilhados permanecem por mais tempo mesmo quando branches antigos são removidos
-
Como começar
- É possível baixar o Ollama 0.19
- O novo modelo Qwen3.5-35B-A3B foi ajustado com parâmetros de sampling para tarefas de programação
- É necessário um Mac com 32 GB ou mais de memória unificada
- Exemplos de execução:
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 - OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4 - Conversa com o modelo:
ollama run qwen3.5:35b-a3b-coding-nvfp4
- Claude Code:
-
Próximos planos
- Suporte a mais modelos
- Adição de um recurso de importação de modelos personalizados com base nas arquiteturas suportadas
- Expansão contínua da lista de arquiteturas suportadas
-
Agradecimentos
- À equipe de contribuidores do MLX, pelo desenvolvimento do framework de aceleração
- À equipe da NVIDIA, por NVFP4 quantization, otimização de modelos, suporte MLX CUDA, otimização do Ollama e testes
- À equipe do GGML e do llama.cpp, pela construção do framework local e da comunidade
- À equipe do Alibaba Qwen, por disponibilizar modelos open source e colaborar
1 comentários
Comentários do Hacker News
O "apfel" que eu fiz é uma CLI para os foundation models locais on-device da Apple
Há uma quantidade excessiva de guardrails — com limite de contexto de 4k e até bloqueando descrição de cores —, mas ainda assim parece muito poderoso poder usá-lo diretamente em scripts bash sem chamadas externas
Eu também estava animado, mas ao usar senti uma decepção grande. Agora até acho melhor que a Apple aparentemente tenha mudado totalmente de direção para o Gemini
Acho que LLMs on-device são o futuro
A segurança é maior, o consumo de energia é menor do que em datacenters e isso também pode aliviar o problema da demanda por inferência. A maioria dos usuários não precisa de desempenho de modelo estado da arte
Datacenters são quase 100 vezes mais eficientes do que PCs pessoais graças a batching em GPU e alta taxa de utilização
Ainda assim, uma abordagem híbrida em que o modelo local lida com pedidos simples e os complexos vão para a nuvem parece promissora
Ele já vem com uma interface estilo ChatGPT, o que é útil para testes rápidos. Mesmo com 16GB de RAM, alguns modelos rodam bem
Por exemplo, o Qwen 3.5 9B é muito censurado, mas a versão uncensored por outro lado é livre demais, então esse equilíbrio acaba sendo interessante
Só que a largura de banda do SSD vira gargalo, então quanto mais RAM para cache melhor. Se você puder esperar pelas respostas, isso é perfeitamente prático
Recentemente fiz um app de graphRAG combinando Qwen 3.5 4B e 27B, e funcionou muito bem ao separar pequenas tarefas de perguntas e respostas
Usei MLX, e ao fazer processamento em lote para extração de entidades pareceu bem mais rápido
Fico feliz em ver que a inferência do Ollama no Mac melhorou bastante graças ao MLX
Em especial, o recurso de cache SSD para KV do omlx.ai foi um divisor de águas
Mesmo que a sessão saia da memória, não é preciso fazer prefill de novo, e com a alta velocidade de prefill do M5 Max dá para gastar mais tempo na geração
Estou rodando qwen 70b 4-bit com llama.cpp em um M2 Max 96GB
Para o trabalho do dia a dia, é estável o suficiente. Antes o Ollama chamava o llama.cpp via shell, mas agora com a migração nativa para MLX a eficiência de memória deve melhorar
Pretendo comparar com o caminho de gguf em modelos grandes
Fico em dúvida sobre por que ainda usar Ollama
Lemonade ou llama.cpp parecem mais otimizados e têm usabilidade parecida
Queria saber se existe alguma alternativa não-Mac para rodar modelos locais com desempenho no nível de um Mac
Queria saber como isso se compara ao optiq, o engine de inferência mais recente de MLX
O optiq suporta Turboquantization
Tenho curiosidade sobre a comparação de desempenho entre llama.cpp e MLX
Ainda assim, na maioria dos casos, o ganho de velocidade vale mais a pena
Estou esperando o dia em que dê para rodar Claude Code com um LLM local no MacOS confortavelmente com apenas 16GB de RAM