- A família de modelos Qwen3.5 da Alibaba oferece vários tamanhos, de 0.8B a 397B, com suporte a raciocínio híbrido multimodal e contexto de 256K
- A Unsloth disponibiliza todos os modelos Qwen3.5 em quantização Dynamic 2.0 GGUF, com execução local via llama.cpp ou LM Studio
- É possível alternar entre o modo thinking e o modo non-thinking, e os modelos pequenos (0.8B~9B) vêm por padrão no modo non-thinking
- Estão especificados a quantidade de RAM/VRAM necessária e os valores recomendados de configuração (temperature, top_p etc.) para cada modelo, e os modelos 27B e 35B podem rodar até mesmo em um ambiente Mac com 22GB
- O GGUF da Unsloth melhora o desempenho com algoritmos de quantização aprimorados e dados imatrix, mas não é compatível com Ollama
Visão geral do Qwen3.5
- O Qwen3.5 é uma nova série de LLMs lançada pela Alibaba, incluindo desde 0.8B·2B·4B·9B (pequenos) até 27B·35B·122B·397B (grandes)
- Suporta raciocínio híbrido multimodal e processa 201 idiomas com janela de contexto de 256K
- Apresenta alto desempenho em codificação com agentes, visão, conversa e tarefas de contexto longo
- Os modelos 35B e 27B podem rodar até mesmo em Macs com 22GB de RAM
- Todos os arquivos GGUF usam algoritmos de quantização aprimorados e novos dados imatrix
- Melhorias de desempenho em chat, codificação, contexto longo e tool-calling
- As camadas MXFP4 foram removidas de alguns GGUFs (Q2_K_XL, Q3_K_XL, Q4_K_XL)
Requisitos de hardware
- A tabela indica os requisitos mínimos de memória por tamanho de modelo
- Ex.: modelos de 0.8B~2B precisam de 3GB, o 9B precisa de 5.5GB (com base em 3-bit), e o 35B-A3B precisa de 17GB
- O 397B-A17B requer 180GB em 3-bit e 214GB em 4-bit
- A memória total (RAM+VRAM) deve ser maior que o tamanho do arquivo do modelo para obter desempenho ideal
- Se faltar memória, ainda é possível executar com offloading para SSD/HDD, mas com perda de velocidade
- O 27B é a escolha para priorizar precisão, enquanto o 35B-A3B prioriza velocidade
Valores recomendados de configuração
- Janela máxima de contexto: 262,144 (expansível até 1M com YaRN)
- presence_penalty: 0.0~2.0 (para reduzir repetição; quanto maior, maior a chance de leve perda de desempenho)
- Comprimento de saída: recomendados 32,768 tokens
- Os valores mudam conforme o modo Thinking ou Non-thinking
- Modo Thinking: para tarefas gerais, temperature=1.0; para código, 0.6
- Modo Non-thinking: para tarefas gerais, temperature=0.7; para tarefas de raciocínio, 1.0
- Os modelos pequenos (0.8B~9B) vêm com reasoning desativado por padrão
- Para ativar, use
--chat-template-kwargs '{"enable_thinking":true}'
Tutorial de execução e inferência
- Todos os modelos são oferecidos na versão Dynamic 4-bit MXFP4_MOE GGUF
- Procedimento de inferência local com llama.cpp
- Instale a versão mais recente pelo GitHub e selecione GPU/CPU com a opção
-DGGML_CUDA
- Baixe o modelo no Hugging Face (
hf download unsloth/Qwen3.5-XXB-GGUF)
- Execute com os comandos
llama-cli ou llama-server
- Também é possível rodar no LM Studio
- Após buscar o modelo, baixe o GGUF e ative o toggle de Thinking via arquivo YAML
- Depois de reiniciar, a função de toggle poderá ser usada
Resumo de execução por modelo
- Qwen3.5-35B-A3B: inferência rápida em Dynamic 4-bit com 24GB de RAM/Mac
- Qwen3.5-27B: executável com 18GB de RAM/Mac
- Qwen3.5-122B-A10B: funciona em ambiente Mac com 70GB de RAM
- Qwen3.5-397B-A17B:
- 3-bit: requer 192GB de RAM; 4-bit: requer 256GB de RAM
- Combinando GPU de 24GB + RAM de 256GB, gera mais de 25 tokens por segundo
- Nível de desempenho semelhante ao Gemini 3 Pro, Claude Opus 4.5 e GPT-5.2
Servidor de inferência e integração via API
- É possível publicar em formato de API compatível com OpenAI usando
llama-server
- Suporte a Tool Calling
- É possível chamar funções para execução de código Python, comandos de terminal, operações matemáticas etc.
- É fornecido um exemplo de código
unsloth_inference()
Resultados de benchmark
- Benchmark de GGUF da Unsloth
- A quantização dinâmica do Qwen3.5-35B apresentou desempenho SOTA na maioria das faixas de bits
- Mais de 150 testes de KL Divergence e uso total de 9TB de dados GGUF
- Melhor desempenho na Fronteira de Pareto em 99.9% KLD
- Qwen3.5-397B-A17B
- Em testes de terceiros por Benjamin Marie
- Original 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
- Queda de precisão inferior a 1 ponto, com economia de cerca de 500GB de memória
- O Q3 é apresentado como opção para economizar memória, e o Q4 como opção mais estável
Outros recursos
- São fornecidos comandos para ativar/desativar Reasoning (
--chat-template-kwargs)
- Integração possível com Claude Code / OpenAI Codex
- O Tool Calling Guide permite configurar chamadas de ferramentas com LLM local
- Incompatível com Ollama, com suporte apenas a backends baseados em llama.cpp
2 comentários
Estou usando o 27b no hx370 e os resultados são bons.
Comentários no Hacker News
Testei o Qwen3.5 9B em uma ASUS 5070ti 16G com o LM Studio, e ele rodou de forma muito estável a cerca de 100 tok/s
É mais rápido do que a maioria dos serviços de LLM online, e a qualidade da saída também bate com o nível visto nos benchmarks
Foi a primeira vez que rodei um modelo realmente utilizável em hardware de consumidor
Imagino que não seja uma comparação de usabilidade com modelos topo de linha como Sonnet ou Opus
Para trabalho de programação, preciso de pelo menos 100k de contexto
No meu caso ele entrava em loop infinito, então desliguei, e mudar vários parâmetros não resolveu
A qualidade fica no nível do Sonnet 4.0 do verão de 2025, e no ik_llama.cpp a velocidade também é muito boa
A orquestração parece ser bem importante
Está escrito “All uploads use Unsloth Dynamic 2.0”, mas nas opções reais aparecem várias como IQ4_XS, Q4_K_S e Q4_K_M
Isso é confuso porque não há explicação dos trade-offs de cada uma
No Mac mini M4 16GB, eu uso principalmente o Qwen3-4B-Instruct-2507-Q4_K_M, mas o Qwen3.5-4B-UD-Q4_K_XL é muito mais falante
As necessidades variam de usuário para usuário, mas seria ótimo ter uma tabela com configurações por modelo/hardware e uso de memória
Mesmo no Reddit quase não há exemplos concretos de configuração
Estou acompanhando esse tema há 3 meses, e tem mais confusão do que informação clara
Por enquanto uso o coder-model do qwen CLI na nuvem, esperando surgir um modelo local de baixo consumo
Há uma comparação de KL Divergence por espaço em disco entre Q4_K_XL e Q4_K_M
Q4_0 e Q4_1 são rápidos, mas perdem em precisão, então hoje em dia não são mais recomendados
Q4_K_M e UD-Q4_K_XL são quase idênticos, com o _XL sendo ligeiramente maior
Mas ainda não há dados sobre o Qwen3.5
Talvez o problema seja lidar com código Rust
Quando rodei o qwen3.5-35b-a3b quantizado em 6bit numa 4090, o resultado foi bem bom
Hoje uso o qwen3.5-27b 8bit como motor principal e estou satisfeito
Sempre que sai um novo modelo aberto, eu testo as velocidades de PP (processamento do prompt) e TG (geração de tokens) com llama-cpp/server
Fiz os testes num MacBook M1 Max 64GB, em ambiente Claude Code (15~30K de contexto)
O Qwen3.5-30B-A3B tem velocidade de TG pela metade do Qwen3-30B-A3B
O Qwen3.5 usa menos RAM graças ao sliding window attention e a qualidade das respostas é boa, mas com 33k de contexto a velocidade fica lenta
Os detalhes da configuração estão resumidos neste documento
No meu benchmark pessoal, usei a API do DeepSeek como base e fiz a avaliação com Claude Opus
O Qwen3.5 35B A3B (q8_0, thinking) ficou em 92,5%, e o Q4_K_M (thinking) em cerca de 90%
Eu esperava que o modelo denso de 27B fosse pontuar mais alto, então foi uma surpresa
Mas esse número é uma avaliação de resposta one-shot, então não reflete cenários iterativos de agente
Talvez uma inconsistência lógica no prompt tenha atrapalhado o raciocínio do 27B
Observando o thinking trace talvez dê para depurar a causa
Testei o Qwen3.5 9B na CPU para OCR e limpeza de texto, e ele é bem utilizável
Só que o offloading para GPU não estava funcionando direito, então numa 1650 Ti com 4GB de VRAM estourava memória
Foi possível com o comando
sudo apt install nvidia-driver-570O modelo 35B roda em velocidade parecida com a do 4B, mas é muito mais poderoso
Só que o qwen3.5 é metade da velocidade do qwen3
Ainda assim, no geral estou satisfeito
Estou rodando o Qwen3.5:0.8b muito bem só na CPU num Orangepi Zero 2w
Quando quero usar a GPU Vulkan, executo o qwen3.5:2b no Meta Quest 3 com zeroclaw
Isso me fez economizar algumas centenas de dólares em ambiente de baixo consumo
Recomendo tentar rodar modelos locais em um celular Android usado
Queria saber se existe algum lugar oferecendo o modelo 9B em forma de hospedagem
Num ambiente corporativo em que é difícil alugar GPU, o OpenRouter não tem modelos pequenos
Seria bom existir um template serverless no runpod
Também queria saber se o modelo 9B consegue rodar com baixa latência numa 4090 em 8bit ou 6bit
Testei o Qwen3.5 35B-A3B numa RTX 3050 8GB, e ele pareceu bem responsivo e também lidou bem com tarefas de programação
A versão anterior tinha problema de entrar em loop durante uso de ferramentas, mas parece que isso foi corrigido na nova versão
Também gostaria de ver números de tok/s
Parece que até num notebook com RTX 3060 daria para usar bem como servidor local
Não imaginava que um modelo local fosse se sair tão bem
Tenho curiosidade sobre como o modelo 397B-A17B se compara ao Frontier
Provavelmente exigiria hardware num nível que a maioria das pessoas não consegue rodar
Pessoalmente, acho que o modelo 122B já me satisfaz bastante em termos de privacidade e redução de custos
Queria saber se esse modelo roda num servidor antigo com 4xV100 Tesla
As configurações relacionadas a fp são complicadas, então para quem está começando é difícil de entender