Rapid-MLX - motor de IA local ultrarrápido exclusivo para Apple Silicon

xguru · 2026-05-12T09:46:02+09:00

Um motor de inferência para executar modelos de IA localmente em Macs com Apple Silicon, usando kernels nativos de computação Metal baseados no framework MLX da Apple Velocidade de inferência até 4,2x maior que o Ollama — com o Phi-4 Mini 14B, 180 tok/s (3,2x acima dos 56 tok/s do Ollama); com o Qwen3.5-9B, 108 tok/s (2,6x acima dos 41 tok/s do Ollama) TTFT de 0,08 s com cache ativo (baseado no Kimi-Linear-48B), ficando entre 0,1 e 0,3 s na maioria dos modelos 17 parsers de chamada de ferramentas integrados com detecção automática baseada no nome do modelo — mesmo que um modelo quantizado em 4 bits emita chamadas de ferramenta corrompidas como texto, elas são restauradas automaticamente para um formato estruturado Mapeamento otimizado de modelos por quantidade de RAM, de um MacBook Air de 16 GB (Qwen3.5-4B, 160 tok/s) até um Mac Studio Ultra de 256 GB (DeepSeek V4 Flash 158B, 31 tok/s, contexto de 1M) 16 GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2,4 GB de RAM usados, 160 tok/s, suporta chat, programação e chamadas de ferramentas 24 GB MacBook Pro: Qwen3.5-9B 4bit → 5,1 GB, 108 tok/s, modelo de uso geral 32 GB Mac Mini/Studio: Qwen3.5-27B 4bit (15,3 GB, 39 tok/s), Nemotron-Nano 30B 4bit (18 GB, 141 tok/s, 100% de chamadas de ferramentas), Qwen3.6-35B-A3B 4bit (20 GB, 95 tok/s, 256 especialistas MoE, contexto de 262K) 48~64 GB: Qwen3.5-35B-A3B 8bit → 37 GB, 83 tok/s, o melhor equilíbrio entre inteligência e velocidade 96 GB+: Qwen3.5-122B mxfp4 → 65 GB, 57 tok/s, inteligência de nível frontier 128 GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91 GB, 56 tok/s, MoE frontier day-0 192~256 GB: Qwen3.5-122B 8bit (130 GB, 44 tok/s) ou DeepSeek V4 Flash 8-bit (136 GB, 31 tok/s, contexto de 1M) 4bit economiza memória (recomendado na maioria dos casos), 8bit oferece inferência de maior qualidade, e mxfp4 é um formato 4bit de alta qualidade Recurso de separação de raciocínio que isola o processo de inferência de modelos chain-of-thought em um campo reasoning_content separado — compatível com os formatos Qwen3, DeepSeek-R1, MiniMax e GPT-OSS Com trimming de cache KV para transformers padrão e snapshots de estado DeltaNet para a arquitetura híbrida Qwen3.5 (restauração em ~0,1 ms), o TTFT em conversas multi-turno melhora de 2x a 5x, sempre ativado sem necessidade de flag separada Suporte a roteamento inteligente para nuvem, que alterna automaticamente requisições com contexto muito grande e prefill local lento para LLMs em nuvem como GPT-5 e Claude Substituto drop-in da API da OpenAI — apps compatíveis com OpenAI como Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent e Open WebUI podem se conectar imediatamente via localhost:8000/v1 Suporte a multimodalidade e extensões opcionais, incluindo Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI e geração de JSON com restrição por schema Inclui várias técnicas de otimização, como TurboQuant V-cache (86% de redução de memória), quantização de cache KV, prefill em chunks e tool logits bias Fornece o MHI (Model-Harness Index), que mede a compatibilidade entre modelo e harness de agente — o Qwopus 27B lidera com MHI 92 Técnicas adicionais de aceleração como Speculative Decode (1,5~2,3x), EAGLE-3 (3~6,5x) e ReDrafter (1,4~1,5x) estão no roadmap Licença Apache 2.0

(github.com/raullenchai)

13 pontos por xguru 7 시간 전 | 3 comentários | Compartilhar no WhatsApp

Um motor de inferência para executar modelos de IA localmente em Macs com Apple Silicon, usando kernels nativos de computação Metal baseados no framework MLX da Apple
Velocidade de inferência até 4,2x maior que o Ollama — com o Phi-4 Mini 14B, 180 tok/s (3,2x acima dos 56 tok/s do Ollama); com o Qwen3.5-9B, 108 tok/s (2,6x acima dos 41 tok/s do Ollama)
TTFT de 0,08 s com cache ativo (baseado no Kimi-Linear-48B), ficando entre 0,1 e 0,3 s na maioria dos modelos
17 parsers de chamada de ferramentas integrados com detecção automática baseada no nome do modelo — mesmo que um modelo quantizado em 4 bits emita chamadas de ferramenta corrompidas como texto, elas são restauradas automaticamente para um formato estruturado
Mapeamento otimizado de modelos por quantidade de RAM, de um MacBook Air de 16 GB (Qwen3.5-4B, 160 tok/s) até um Mac Studio Ultra de 256 GB (DeepSeek V4 Flash 158B, 31 tok/s, contexto de 1M)
- 16 GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2,4 GB de RAM usados, 160 tok/s, suporta chat, programação e chamadas de ferramentas
- 24 GB MacBook Pro: Qwen3.5-9B 4bit → 5,1 GB, 108 tok/s, modelo de uso geral
- 32 GB Mac Mini/Studio: Qwen3.5-27B 4bit (15,3 GB, 39 tok/s), Nemotron-Nano 30B 4bit (18 GB, 141 tok/s, 100% de chamadas de ferramentas), Qwen3.6-35B-A3B 4bit (20 GB, 95 tok/s, 256 especialistas MoE, contexto de 262K)
- 48~64 GB: Qwen3.5-35B-A3B 8bit → 37 GB, 83 tok/s, o melhor equilíbrio entre inteligência e velocidade
- 96 GB+: Qwen3.5-122B mxfp4 → 65 GB, 57 tok/s, inteligência de nível frontier
- 128 GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91 GB, 56 tok/s, MoE frontier day-0
- 192~256 GB: Qwen3.5-122B 8bit (130 GB, 44 tok/s) ou DeepSeek V4 Flash 8-bit (136 GB, 31 tok/s, contexto de 1M)
- 4bit economiza memória (recomendado na maioria dos casos), 8bit oferece inferência de maior qualidade, e mxfp4 é um formato 4bit de alta qualidade
Recurso de separação de raciocínio que isola o processo de inferência de modelos chain-of-thought em um campo reasoning_content separado — compatível com os formatos Qwen3, DeepSeek-R1, MiniMax e GPT-OSS
Com trimming de cache KV para transformers padrão e snapshots de estado DeltaNet para a arquitetura híbrida Qwen3.5 (restauração em ~0,1 ms), o TTFT em conversas multi-turno melhora de 2x a 5x, sempre ativado sem necessidade de flag separada
Suporte a roteamento inteligente para nuvem, que alterna automaticamente requisições com contexto muito grande e prefill local lento para LLMs em nuvem como GPT-5 e Claude
Substituto drop-in da API da OpenAI — apps compatíveis com OpenAI como Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent e Open WebUI podem se conectar imediatamente via localhost:8000/v1
Suporte a multimodalidade e extensões opcionais, incluindo Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI e geração de JSON com restrição por schema
Inclui várias técnicas de otimização, como TurboQuant V-cache (86% de redução de memória), quantização de cache KV, prefill em chunks e tool logits bias
Fornece o MHI (Model-Harness Index), que mede a compatibilidade entre modelo e harness de agente — o Qwopus 27B lidera com MHI 92
Técnicas adicionais de aceleração como Speculative Decode (1,5~2,3x), EAGLE-3 (3~6,5x) e ReDrafter (1,4~1,5x) estão no roadmap
Licença Apache 2.0

3 comentários

parkindani 3 시간 전

Fico curioso para saber como será o desempenho em comparação com o omlx.

xguru 6 시간 전

Pessoalmente, estou testando o deepseek4 com o antirez/ds4, e parece que o lado do ds4 acaba sendo um pouco mais rápido mesmo.

o ds4 é meio complicado por ser voltado só para 128 GB, mas para outros modelos acho que pode ser bom.

Recentemente, um tuíte do CEO da HuggingFace dizendo que experimentou programar no avião com o Qwen3.6 27B e que o nível era de Opus ficou bem popular, então acho que vou tentar colocar o 3.6 27B nisso aqui.
https://x.com/julien_c/status/2047647522173104145

yangeok 7 시간 전

Fico curioso para saber como seria o desempenho em coreano... Estou usando uma de 96 GB, mas imagino que o desempenho fique abaixo de um LLM pago, né..?

Se chegar pelo menos ao nível do Gemini CLI, já seria ótimo hehe

Rapid-MLX - motor de IA local ultrarrápido exclusivo para Apple Silicon

Leituras relacionadas

3 comentários