Guia para executar o Qwen3.5 localmente

(unsloth.ai)

33 pontos por GN⁺ 2026-03-09 | 2 comentários | Compartilhar no WhatsApp

A família de modelos Qwen3.5 da Alibaba oferece vários tamanhos, de 0.8B a 397B, com suporte a raciocínio híbrido multimodal e contexto de 256K
A Unsloth disponibiliza todos os modelos Qwen3.5 em quantização Dynamic 2.0 GGUF, com execução local via llama.cpp ou LM Studio
É possível alternar entre o modo thinking e o modo non-thinking, e os modelos pequenos (0.8B~9B) vêm por padrão no modo non-thinking
Estão especificados a quantidade de RAM/VRAM necessária e os valores recomendados de configuração (temperature, top_p etc.) para cada modelo, e os modelos 27B e 35B podem rodar até mesmo em um ambiente Mac com 22GB
O GGUF da Unsloth melhora o desempenho com algoritmos de quantização aprimorados e dados imatrix, mas não é compatível com Ollama

Visão geral do Qwen3.5

O Qwen3.5 é uma nova série de LLMs lançada pela Alibaba, incluindo desde 0.8B·2B·4B·9B (pequenos) até 27B·35B·122B·397B (grandes)
- Suporta raciocínio híbrido multimodal e processa 201 idiomas com janela de contexto de 256K
- Apresenta alto desempenho em codificação com agentes, visão, conversa e tarefas de contexto longo
Os modelos 35B e 27B podem rodar até mesmo em Macs com 22GB de RAM
Todos os arquivos GGUF usam algoritmos de quantização aprimorados e novos dados imatrix
- Melhorias de desempenho em chat, codificação, contexto longo e tool-calling
- As camadas MXFP4 foram removidas de alguns GGUFs (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Requisitos de hardware

A tabela indica os requisitos mínimos de memória por tamanho de modelo
- Ex.: modelos de 0.8B~2B precisam de 3GB, o 9B precisa de 5.5GB (com base em 3-bit), e o 35B-A3B precisa de 17GB
- O 397B-A17B requer 180GB em 3-bit e 214GB em 4-bit
A memória total (RAM+VRAM) deve ser maior que o tamanho do arquivo do modelo para obter desempenho ideal
- Se faltar memória, ainda é possível executar com offloading para SSD/HDD, mas com perda de velocidade
O 27B é a escolha para priorizar precisão, enquanto o 35B-A3B prioriza velocidade

Valores recomendados de configuração

Janela máxima de contexto: 262,144 (expansível até 1M com YaRN)
presence_penalty: 0.0~2.0 (para reduzir repetição; quanto maior, maior a chance de leve perda de desempenho)
Comprimento de saída: recomendados 32,768 tokens
Os valores mudam conforme o modo Thinking ou Non-thinking
- Modo Thinking: para tarefas gerais, temperature=1.0; para código, 0.6
- Modo Non-thinking: para tarefas gerais, temperature=0.7; para tarefas de raciocínio, 1.0
Os modelos pequenos (0.8B~9B) vêm com reasoning desativado por padrão
- Para ativar, use --chat-template-kwargs '{"enable_thinking":true}'

Tutorial de execução e inferência

Todos os modelos são oferecidos na versão Dynamic 4-bit MXFP4_MOE GGUF
Procedimento de inferência local com llama.cpp
- Instale a versão mais recente pelo GitHub e selecione GPU/CPU com a opção -DGGML_CUDA
- Baixe o modelo no Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
- Execute com os comandos llama-cli ou llama-server
Também é possível rodar no LM Studio
- Após buscar o modelo, baixe o GGUF e ative o toggle de Thinking via arquivo YAML
- Depois de reiniciar, a função de toggle poderá ser usada

Resumo de execução por modelo

Qwen3.5-35B-A3B: inferência rápida em Dynamic 4-bit com 24GB de RAM/Mac
Qwen3.5-27B: executável com 18GB de RAM/Mac
Qwen3.5-122B-A10B: funciona em ambiente Mac com 70GB de RAM
Qwen3.5-397B-A17B:
- 3-bit: requer 192GB de RAM; 4-bit: requer 256GB de RAM
- Combinando GPU de 24GB + RAM de 256GB, gera mais de 25 tokens por segundo
- Nível de desempenho semelhante ao Gemini 3 Pro, Claude Opus 4.5 e GPT-5.2

Servidor de inferência e integração via API

É possível publicar em formato de API compatível com OpenAI usando llama-server
- A biblioteca Python openai pode enviar requisições ao servidor local
- Exemplo: uso do endpoint "http://127.0.0.1:8001/v1";
Suporte a Tool Calling
- É possível chamar funções para execução de código Python, comandos de terminal, operações matemáticas etc.
- É fornecido um exemplo de código unsloth_inference()

Resultados de benchmark

Benchmark de GGUF da Unsloth
- A quantização dinâmica do Qwen3.5-35B apresentou desempenho SOTA na maioria das faixas de bits
- Mais de 150 testes de KL Divergence e uso total de 9TB de dados GGUF
- Melhor desempenho na Fronteira de Pareto em 99.9% KLD
Qwen3.5-397B-A17B
- Em testes de terceiros por Benjamin Marie
  - Original 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
  - Queda de precisão inferior a 1 ponto, com economia de cerca de 500GB de memória
- O Q3 é apresentado como opção para economizar memória, e o Q4 como opção mais estável

Outros recursos

São fornecidos comandos para ativar/desativar Reasoning (--chat-template-kwargs)
Integração possível com Claude Code / OpenAI Codex
O Tool Calling Guide permite configurar chamadas de ferramentas com LLM local
Incompatível com Ollama, com suporte apenas a backends baseados em llama.cpp

2 comentários

tensun 2026-03-09

Estou usando o 27b no hx370 e os resultados são bons.

GN⁺ 2026-03-09

Comentários no Hacker News

Testei o Qwen3.5 9B em uma ASUS 5070ti 16G com o LM Studio, e ele rodou de forma muito estável a cerca de 100 tok/s
É mais rápido do que a maioria dos serviços de LLM online, e a qualidade da saída também bate com o nível visto nos benchmarks
Foi a primeira vez que rodei um modelo realmente utilizável em hardware de consumidor
- Fiquei na dúvida se “melhor do que serviço online” é no critério de velocidade, ou se é uma comparação da qualidade do próprio modelo
  Imagino que não seja uma comparação de usabilidade com modelos topo de linha como Sonnet ou Opus
- Queria saber qual é o tamanho de contexto e o desempenho nessa configuração
  Para trabalho de programação, preciso de pelo menos 100k de contexto
- Você por acaso resolveu o problema do Thinking mode?
  No meu caso ele entrava em loop infinito, então desliguei, e mudar vários parâmetros não resolveu
- O Qwen3.5 27B em quantização 4bit cabe em 16G de VRAM
  A qualidade fica no nível do Sonnet 4.0 do verão de 2025, e no ik_llama.cpp a velocidade também é muito boa
- Você usa isso integrado ao Claude Code?
  A orquestração parece ser bem importante
Está escrito “All uploads use Unsloth Dynamic 2.0”, mas nas opções reais aparecem várias como IQ4_XS, Q4_K_S e Q4_K_M
Isso é confuso porque não há explicação dos trade-offs de cada uma
No Mac mini M4 16GB, eu uso principalmente o Qwen3-4B-Instruct-2507-Q4_K_M, mas o Qwen3.5-4B-UD-Q4_K_XL é muito mais falante
As necessidades variam de usuário para usuário, mas seria ótimo ter uma tabela com configurações por modelo/hardware e uso de memória
Mesmo no Reddit quase não há exemplos concretos de configuração
Estou acompanhando esse tema há 3 meses, e tem mais confusão do que informação clara
Por enquanto uso o coder-model do qwen CLI na nuvem, esperando surgir um modelo local de baixo consumo
- O benchmark GGUF do Unsloth para Qwen3.5 pode ajudar
  Há uma comparação de KL Divergence por espaço em disco entre Q4_K_XL e Q4_K_M
  Q4_0 e Q4_1 são rápidos, mas perdem em precisão, então hoje em dia não são mais recomendados
  Q4_K_M e UD-Q4_K_XL são quase idênticos, com o _XL sendo ligeiramente maior
- O LocalScore.ai é um site feito pelo Mozilla Builders com o objetivo de mapear modelos e hardware assim
  Mas ainda não há dados sobre o Qwen3.5
- Testei o ollama com qwen3.5:4b em um Mac M1; as chamadas de ferramenta funcionaram razoavelmente, mas ele é lento e se confunde em tarefas complexas
  Talvez o problema seja lidar com código Rust
  Quando rodei o qwen3.5-35b-a3b quantizado em 6bit numa 4090, o resultado foi bem bom
  Hoje uso o qwen3.5-27b 8bit como motor principal e estou satisfeito
- O guia para escolher quantização de modelo também vale a consulta
Sempre que sai um novo modelo aberto, eu testo as velocidades de PP (processamento do prompt) e TG (geração de tokens) com llama-cpp/server
Fiz os testes num MacBook M1 Max 64GB, em ambiente Claude Code (15~30K de contexto)
O Qwen3.5-30B-A3B tem velocidade de TG pela metade do Qwen3-30B-A3B
O Qwen3.5 usa menos RAM graças ao sliding window attention e a qualidade das respostas é boa, mas com 33k de contexto a velocidade fica lenta
Os detalhes da configuração estão resumidos neste documento
No meu benchmark pessoal, usei a API do DeepSeek como base e fiz a avaliação com Claude Opus
O Qwen3.5 35B A3B (q8_0, thinking) ficou em 92,5%, e o Q4_K_M (thinking) em cerca de 90%
Eu esperava que o modelo denso de 27B fosse pontuar mais alto, então foi uma surpresa
Mas esse número é uma avaliação de resposta one-shot, então não reflete cenários iterativos de agente
- É interessante que o 35B A3B tenha ficado acima do 27B
  Talvez uma inconsistência lógica no prompt tenha atrapalhado o raciocínio do 27B
  Observando o thinking trace talvez dê para depurar a causa
- Também queria saber se existe algum modelo thinking que quase não aumente a latência
Testei o Qwen3.5 9B na CPU para OCR e limpeza de texto, e ele é bem utilizável
Só que o offloading para GPU não estava funcionando direito, então numa 1650 Ti com 4GB de VRAM estourava memória
- Tive o mesmo problema, mas resolvi com atualização de driver
  Foi possível com o comando sudo apt install nvidia-driver-570
- Na combinação 1660ti + cachyos + llama.cpp-cuda funciona bem
  O modelo 35B roda em velocidade parecida com a do 4B, mas é muito mais poderoso
  Só que o qwen3.5 é metade da velocidade do qwen3
  Ainda assim, no geral estou satisfeito
- Ao compilar do código-fonte, o backend Vulkan é o jeito mais simples de fazer offloading para GPU
Estou rodando o Qwen3.5:0.8b muito bem só na CPU num Orangepi Zero 2w
Quando quero usar a GPU Vulkan, executo o qwen3.5:2b no Meta Quest 3 com zeroclaw
Isso me fez economizar algumas centenas de dólares em ambiente de baixo consumo
Recomendo tentar rodar modelos locais em um celular Android usado
Queria saber se existe algum lugar oferecendo o modelo 9B em forma de hospedagem
Num ambiente corporativo em que é difícil alugar GPU, o OpenRouter não tem modelos pequenos
Seria bom existir um template serverless no runpod
Também queria saber se o modelo 9B consegue rodar com baixa latência numa 4090 em 8bit ou 6bit
Testei o Qwen3.5 35B-A3B numa RTX 3050 8GB, e ele pareceu bem responsivo e também lidou bem com tarefas de programação
A versão anterior tinha problema de entrar em loop durante uso de ferramentas, mas parece que isso foi corrigido na nova versão
- Queria saber se ele faz offloading para a RAM do sistema
  Também gostaria de ver números de tok/s
  Parece que até num notebook com RTX 3060 daria para usar bem como servidor local
- Queria saber que exemplos de tarefas de programação você testou
  Não imaginava que um modelo local fosse se sair tão bem
- Você poderia informar o nome exato do modelo que usou?
Tenho curiosidade sobre como o modelo 397B-A17B se compara ao Frontier
Provavelmente exigiria hardware num nível que a maioria das pessoas não consegue rodar
- Usei via OpenRouter, e ele é muito bom, mas em algumas tarefas o Frontier ainda é melhor
  Pessoalmente, acho que o modelo 122B já me satisfaz bastante em termos de privacidade e redução de custos
Queria saber se esse modelo roda num servidor antigo com 4xV100 Tesla
As configurações relacionadas a fp são complicadas, então para quem está começando é difícil de entender

Guia para executar o Qwen3.5 localmente

Visão geral do Qwen3.5

Requisitos de hardware

Valores recomendados de configuração

Tutorial de execução e inferência

Resumo de execução por modelo

Servidor de inferência e integração via API

Resultados de benchmark

Outros recursos

Leituras relacionadas

2 comentários

Comentários no Hacker News