5 pontos por GN⁺ 29 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Foi lançada uma versão preview do Ollama baseada no framework Apple MLX, oferecendo ganhos de desempenho ao aproveitar a arquitetura de memória unificada do Apple Silicon
  • Com o GPU Neural Accelerator dos chips da série M5, houve melhora tanto no TTFT (tempo até o primeiro token) quanto na velocidade de geração de tokens
  • O suporte ao formato NVFP4 reduz a largura de banda de memória e os requisitos de armazenamento mantendo a precisão do modelo, além de permitir executar modelos otimizados com o NVIDIA Model Optimizer
  • Com reutilização de cache e políticas inteligentes de cache, a eficiência de memória e a velocidade de resposta entre conversas aumentam, melhorando também a taxa de acerto de cache em prompts compartilhados
  • No futuro, a empresa pretende ampliar a arquitetura suportada com mais modelos e um recurso de importação de modelos personalizados

Preview do Ollama rodando com MLX no Apple Silicon

  • Foi apresentada uma nova versão preview do Ollama baseada no framework MLX da Apple
    • Permite executar com mais rapidez no macOS assistentes pessoais (OpenClaw) ou agentes de código (Claude Code, OpenCode, Codex etc.)
    • Melhora o desempenho ao aproveitar a arquitetura de memória unificada do Apple Silicon
  • Melhorias de desempenho no Apple Silicon

    • O Ollama roda sobre o framework de machine learning MLX da Apple e acelera tanto o TTFT (tempo até o primeiro token) quanto a velocidade de geração de tokens usando o GPU Neural Accelerator dos chips M5, M5 Pro e M5 Max
    • Em testes de 29 de março de 2026, foi comparado o modelo Qwen3.5-35B-A3B da Alibaba (quantizado em NVFP4) com a implementação anterior do Ollama (Q4_K_M)
    • A versão Ollama 0.19 registrou desempenho de 1851 token/s de prefill e 134 token/s de decode ao executar em int4
  • Suporte a NVFP4

    • Suporta o formato NVFP4 da NVIDIA, alcançando manutenção da precisão do modelo junto com redução da largura de banda de memória e dos requisitos de armazenamento
    • Garante consistência dos resultados entre ambientes de inferência e de produção que usam NVFP4
    • Permite executar modelos otimizados com o Model Optimizer da NVIDIA
    • Também estão planejadas outras precisões, conforme o projeto e o uso definidos pelos pesquisadores do Ollama e parceiros de hardware
  • Melhorias no sistema de cache

    • A reutilização de cache reduz o uso de memória entre conversas e melhora a taxa de acerto de cache ao usar prompts de sistema compartilhados
    • Foram introduzidos checkpoints inteligentes para reduzir o custo de processamento de prompts e melhorar a velocidade de resposta
    • Com uma política inteligente de remoção de cache, prefixos compartilhados permanecem por mais tempo mesmo quando branches antigos são removidos
  • Como começar

    • É possível baixar o Ollama 0.19
    • O novo modelo Qwen3.5-35B-A3B foi ajustado com parâmetros de sampling para tarefas de programação
    • É necessário um Mac com 32 GB ou mais de memória unificada
    • Exemplos de execução:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • Conversa com o modelo: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • Próximos planos

    • Suporte a mais modelos
    • Adição de um recurso de importação de modelos personalizados com base nas arquiteturas suportadas
    • Expansão contínua da lista de arquiteturas suportadas
  • Agradecimentos

    • À equipe de contribuidores do MLX, pelo desenvolvimento do framework de aceleração
    • À equipe da NVIDIA, por NVFP4 quantization, otimização de modelos, suporte MLX CUDA, otimização do Ollama e testes
    • À equipe do GGML e do llama.cpp, pela construção do framework local e da comunidade
    • À equipe do Alibaba Qwen, por disponibilizar modelos open source e colaborar

1 comentários

 
GN⁺ 29 일 전
Comentários do Hacker News
  • O "apfel" que eu fiz é uma CLI para os foundation models locais on-device da Apple
    Há uma quantidade excessiva de guardrails — com limite de contexto de 4k e até bloqueando descrição de cores —, mas ainda assim parece muito poderoso poder usá-lo diretamente em scripts bash sem chamadas externas

    • Sinceramente, não dá para acreditar que a Apple lançou o produto nesse estado
      Eu também estava animado, mas ao usar senti uma decepção grande. Agora até acho melhor que a Apple aparentemente tenha mudado totalmente de direção para o Gemini
    • Projeto muito legal. Queria saber se há algum plano de distribuição via Homebrew
  • Acho que LLMs on-device são o futuro
    A segurança é maior, o consumo de energia é menor do que em datacenters e isso também pode aliviar o problema da demanda por inferência. A maioria dos usuários não precisa de desempenho de modelo estado da arte

    • A segurança é maior, mas a eficiência de oferta pode na verdade piorar
      Datacenters são quase 100 vezes mais eficientes do que PCs pessoais graças a batching em GPU e alta taxa de utilização
    • Do ponto de vista das empresas, o modelo de datacenter centralizado ainda pode fazer sentido
      Ainda assim, uma abordagem híbrida em que o modelo local lida com pedidos simples e os complexos vão para a nuvem parece promissora
    • Recentemente instalei o llama.cpp em um M4 MBP e estou testando modelos locais
      Ele já vem com uma interface estilo ChatGPT, o que é útil para testes rápidos. Mesmo com 16GB de RAM, alguns modelos rodam bem
      Por exemplo, o Qwen 3.5 9B é muito censurado, mas a versão uncensored por outro lado é livre demais, então esse equilíbrio acaba sendo interessante
    • Com offloading para SSD também dá para rodar modelos SOTA em PCs de consumidor
      Só que a largura de banda do SSD vira gargalo, então quanto mais RAM para cache melhor. Se você puder esperar pelas respostas, isso é perfeitamente prático
    • Faço journaling digital há 5 anos e já previa essa direção
      Recentemente fiz um app de graphRAG combinando Qwen 3.5 4B e 27B, e funcionou muito bem ao separar pequenas tarefas de perguntas e respostas
      Usei MLX, e ao fazer processamento em lote para extração de entidades pareceu bem mais rápido
  • Fico feliz em ver que a inferência do Ollama no Mac melhorou bastante graças ao MLX
    Em especial, o recurso de cache SSD para KV do omlx.ai foi um divisor de águas
    Mesmo que a sessão saia da memória, não é preciso fazer prefill de novo, e com a alta velocidade de prefill do M5 Max dá para gastar mais tempo na geração

  • Estou rodando qwen 70b 4-bit com llama.cpp em um M2 Max 96GB
    Para o trabalho do dia a dia, é estável o suficiente. Antes o Ollama chamava o llama.cpp via shell, mas agora com a migração nativa para MLX a eficiência de memória deve melhorar
    Pretendo comparar com o caminho de gguf em modelos grandes

    • Queria saber qual é a velocidade de geração de tokens por segundo
    • No lançamento inicial, alguns modelos GGUF foram sobrescritos, o que bloqueou o download em plataformas que não são Apple Silicon. Espero que corrijam isso logo
  • Fico em dúvida sobre por que ainda usar Ollama
    Lemonade ou llama.cpp parecem mais otimizados e têm usabilidade parecida

  • Queria saber se existe alguma alternativa não-Mac para rodar modelos locais com desempenho no nível de um Mac

    • No mesmo nível, não. Em PC seria preciso uma GPU classe 5090, mas tanto a eficiência de tokens por custo quanto a eficiência energética do Apple Silicon são muito superiores
  • Queria saber como isso se compara ao optiq, o engine de inferência mais recente de MLX
    O optiq suporta Turboquantization

  • Tenho curiosidade sobre a comparação de desempenho entre llama.cpp e MLX

    • O MLX é um pouco mais rápido, mas usa um pouco mais de RAM
      Ainda assim, na maioria dos casos, o ganho de velocidade vale mais a pena
  • Estou esperando o dia em que dê para rodar Claude Code com um LLM local no MacOS confortavelmente com apenas 16GB de RAM

    • Ouvi dizer que hoje ainda são necessários pelo menos 32GB; queria saber o quanto isso já está perto