Ollama agora roda com base em MLX no Apple Silicon

(ollama.com)

5 pontos por GN⁺ 29 일 전 | 1 comentários | Compartilhar no WhatsApp

Foi lançada uma versão preview do Ollama baseada no framework Apple MLX, oferecendo ganhos de desempenho ao aproveitar a arquitetura de memória unificada do Apple Silicon
Com o GPU Neural Accelerator dos chips da série M5, houve melhora tanto no TTFT (tempo até o primeiro token) quanto na velocidade de geração de tokens
O suporte ao formato NVFP4 reduz a largura de banda de memória e os requisitos de armazenamento mantendo a precisão do modelo, além de permitir executar modelos otimizados com o NVIDIA Model Optimizer
Com reutilização de cache e políticas inteligentes de cache, a eficiência de memória e a velocidade de resposta entre conversas aumentam, melhorando também a taxa de acerto de cache em prompts compartilhados
No futuro, a empresa pretende ampliar a arquitetura suportada com mais modelos e um recurso de importação de modelos personalizados

Preview do Ollama rodando com MLX no Apple Silicon

Foi apresentada uma nova versão preview do Ollama baseada no framework MLX da Apple
- Permite executar com mais rapidez no macOS assistentes pessoais (OpenClaw) ou agentes de código (Claude Code, OpenCode, Codex etc.)
- Melhora o desempenho ao aproveitar a arquitetura de memória unificada do Apple Silicon
Melhorias de desempenho no Apple Silicon
- O Ollama roda sobre o framework de machine learning MLX da Apple e acelera tanto o TTFT (tempo até o primeiro token) quanto a velocidade de geração de tokens usando o GPU Neural Accelerator dos chips M5, M5 Pro e M5 Max
- Em testes de 29 de março de 2026, foi comparado o modelo Qwen3.5-35B-A3B da Alibaba (quantizado em NVFP4) com a implementação anterior do Ollama (Q4_K_M)
- A versão Ollama 0.19 registrou desempenho de 1851 token/s de prefill e 134 token/s de decode ao executar em int4
Suporte a NVFP4
- Suporta o formato NVFP4 da NVIDIA, alcançando manutenção da precisão do modelo junto com redução da largura de banda de memória e dos requisitos de armazenamento
- Garante consistência dos resultados entre ambientes de inferência e de produção que usam NVFP4
- Permite executar modelos otimizados com o Model Optimizer da NVIDIA
- Também estão planejadas outras precisões, conforme o projeto e o uso definidos pelos pesquisadores do Ollama e parceiros de hardware
Melhorias no sistema de cache
- A reutilização de cache reduz o uso de memória entre conversas e melhora a taxa de acerto de cache ao usar prompts de sistema compartilhados
- Foram introduzidos checkpoints inteligentes para reduzir o custo de processamento de prompts e melhorar a velocidade de resposta
- Com uma política inteligente de remoção de cache, prefixos compartilhados permanecem por mais tempo mesmo quando branches antigos são removidos
Como começar
- É possível baixar o Ollama 0.19
- O novo modelo Qwen3.5-35B-A3B foi ajustado com parâmetros de sampling para tarefas de programação
- É necessário um Mac com 32 GB ou mais de memória unificada
- Exemplos de execução:
  - Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
  - OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
  - Conversa com o modelo: ollama run qwen3.5:35b-a3b-coding-nvfp4
Próximos planos
- Suporte a mais modelos
- Adição de um recurso de importação de modelos personalizados com base nas arquiteturas suportadas
- Expansão contínua da lista de arquiteturas suportadas
Agradecimentos
- À equipe de contribuidores do MLX, pelo desenvolvimento do framework de aceleração
- À equipe da NVIDIA, por NVFP4 quantization, otimização de modelos, suporte MLX CUDA, otimização do Ollama e testes
- À equipe do GGML e do llama.cpp, pela construção do framework local e da comunidade
- À equipe do Alibaba Qwen, por disponibilizar modelos open source e colaborar

1 comentários

GN⁺ 29 일 전

Comentários do Hacker News

O "apfel" que eu fiz é uma CLI para os foundation models locais on-device da Apple
Há uma quantidade excessiva de guardrails — com limite de contexto de 4k e até bloqueando descrição de cores —, mas ainda assim parece muito poderoso poder usá-lo diretamente em scripts bash sem chamadas externas
- Sinceramente, não dá para acreditar que a Apple lançou o produto nesse estado
  Eu também estava animado, mas ao usar senti uma decepção grande. Agora até acho melhor que a Apple aparentemente tenha mudado totalmente de direção para o Gemini
- Projeto muito legal. Queria saber se há algum plano de distribuição via Homebrew
Acho que LLMs on-device são o futuro
A segurança é maior, o consumo de energia é menor do que em datacenters e isso também pode aliviar o problema da demanda por inferência. A maioria dos usuários não precisa de desempenho de modelo estado da arte
- A segurança é maior, mas a eficiência de oferta pode na verdade piorar
  Datacenters são quase 100 vezes mais eficientes do que PCs pessoais graças a batching em GPU e alta taxa de utilização
- Do ponto de vista das empresas, o modelo de datacenter centralizado ainda pode fazer sentido
  Ainda assim, uma abordagem híbrida em que o modelo local lida com pedidos simples e os complexos vão para a nuvem parece promissora
- Recentemente instalei o llama.cpp em um M4 MBP e estou testando modelos locais
  Ele já vem com uma interface estilo ChatGPT, o que é útil para testes rápidos. Mesmo com 16GB de RAM, alguns modelos rodam bem
  Por exemplo, o Qwen 3.5 9B é muito censurado, mas a versão uncensored por outro lado é livre demais, então esse equilíbrio acaba sendo interessante
- Com offloading para SSD também dá para rodar modelos SOTA em PCs de consumidor
  Só que a largura de banda do SSD vira gargalo, então quanto mais RAM para cache melhor. Se você puder esperar pelas respostas, isso é perfeitamente prático
- Faço journaling digital há 5 anos e já previa essa direção
  Recentemente fiz um app de graphRAG combinando Qwen 3.5 4B e 27B, e funcionou muito bem ao separar pequenas tarefas de perguntas e respostas
  Usei MLX, e ao fazer processamento em lote para extração de entidades pareceu bem mais rápido
Fico feliz em ver que a inferência do Ollama no Mac melhorou bastante graças ao MLX
Em especial, o recurso de cache SSD para KV do omlx.ai foi um divisor de águas
Mesmo que a sessão saia da memória, não é preciso fazer prefill de novo, e com a alta velocidade de prefill do M5 Max dá para gastar mais tempo na geração
Estou rodando qwen 70b 4-bit com llama.cpp em um M2 Max 96GB
Para o trabalho do dia a dia, é estável o suficiente. Antes o Ollama chamava o llama.cpp via shell, mas agora com a migração nativa para MLX a eficiência de memória deve melhorar
Pretendo comparar com o caminho de gguf em modelos grandes
- Queria saber qual é a velocidade de geração de tokens por segundo
- No lançamento inicial, alguns modelos GGUF foram sobrescritos, o que bloqueou o download em plataformas que não são Apple Silicon. Espero que corrijam isso logo
Fico em dúvida sobre por que ainda usar Ollama
Lemonade ou llama.cpp parecem mais otimizados e têm usabilidade parecida
Queria saber se existe alguma alternativa não-Mac para rodar modelos locais com desempenho no nível de um Mac
- No mesmo nível, não. Em PC seria preciso uma GPU classe 5090, mas tanto a eficiência de tokens por custo quanto a eficiência energética do Apple Silicon são muito superiores
Queria saber como isso se compara ao optiq, o engine de inferência mais recente de MLX
O optiq suporta Turboquantization
Tenho curiosidade sobre a comparação de desempenho entre llama.cpp e MLX
- O MLX é um pouco mais rápido, mas usa um pouco mais de RAM
  Ainda assim, na maioria dos casos, o ganho de velocidade vale mais a pena
Estou esperando o dia em que dê para rodar Claude Code com um LLM local no MacOS confortavelmente com apenas 16GB de RAM
- Ouvi dizer que hoje ainda são necessários pelo menos 32GB; queria saber o quanto isso já está perto

Ollama agora roda com base em MLX no Apple Silicon

Preview do Ollama rodando com MLX no Apple Silicon

Melhorias de desempenho no Apple Silicon

Suporte a NVFP4

Melhorias no sistema de cache

Como começar

Próximos planos

Agradecimentos

Leituras relacionadas

1 comentários

Comentários do Hacker News