33 pontos por GN⁺ 2026-03-09 | 2 comentários | Compartilhar no WhatsApp
  • A família de modelos Qwen3.5 da Alibaba oferece vários tamanhos, de 0.8B a 397B, com suporte a raciocínio híbrido multimodal e contexto de 256K
  • A Unsloth disponibiliza todos os modelos Qwen3.5 em quantização Dynamic 2.0 GGUF, com execução local via llama.cpp ou LM Studio
  • É possível alternar entre o modo thinking e o modo non-thinking, e os modelos pequenos (0.8B~9B) vêm por padrão no modo non-thinking
  • Estão especificados a quantidade de RAM/VRAM necessária e os valores recomendados de configuração (temperature, top_p etc.) para cada modelo, e os modelos 27B e 35B podem rodar até mesmo em um ambiente Mac com 22GB
  • O GGUF da Unsloth melhora o desempenho com algoritmos de quantização aprimorados e dados imatrix, mas não é compatível com Ollama

Visão geral do Qwen3.5

  • O Qwen3.5 é uma nova série de LLMs lançada pela Alibaba, incluindo desde 0.8B·2B·4B·9B (pequenos) até 27B·35B·122B·397B (grandes)
    • Suporta raciocínio híbrido multimodal e processa 201 idiomas com janela de contexto de 256K
    • Apresenta alto desempenho em codificação com agentes, visão, conversa e tarefas de contexto longo
  • Os modelos 35B e 27B podem rodar até mesmo em Macs com 22GB de RAM
  • Todos os arquivos GGUF usam algoritmos de quantização aprimorados e novos dados imatrix
    • Melhorias de desempenho em chat, codificação, contexto longo e tool-calling
    • As camadas MXFP4 foram removidas de alguns GGUFs (Q2_K_XL, Q3_K_XL, Q4_K_XL)

Requisitos de hardware

  • A tabela indica os requisitos mínimos de memória por tamanho de modelo
    • Ex.: modelos de 0.8B~2B precisam de 3GB, o 9B precisa de 5.5GB (com base em 3-bit), e o 35B-A3B precisa de 17GB
    • O 397B-A17B requer 180GB em 3-bit e 214GB em 4-bit
  • A memória total (RAM+VRAM) deve ser maior que o tamanho do arquivo do modelo para obter desempenho ideal
    • Se faltar memória, ainda é possível executar com offloading para SSD/HDD, mas com perda de velocidade
  • O 27B é a escolha para priorizar precisão, enquanto o 35B-A3B prioriza velocidade

Valores recomendados de configuração

  • Janela máxima de contexto: 262,144 (expansível até 1M com YaRN)
  • presence_penalty: 0.0~2.0 (para reduzir repetição; quanto maior, maior a chance de leve perda de desempenho)
  • Comprimento de saída: recomendados 32,768 tokens
  • Os valores mudam conforme o modo Thinking ou Non-thinking
    • Modo Thinking: para tarefas gerais, temperature=1.0; para código, 0.6
    • Modo Non-thinking: para tarefas gerais, temperature=0.7; para tarefas de raciocínio, 1.0
  • Os modelos pequenos (0.8B~9B) vêm com reasoning desativado por padrão
    • Para ativar, use --chat-template-kwargs '{"enable_thinking":true}'

Tutorial de execução e inferência

  • Todos os modelos são oferecidos na versão Dynamic 4-bit MXFP4_MOE GGUF
  • Procedimento de inferência local com llama.cpp
    • Instale a versão mais recente pelo GitHub e selecione GPU/CPU com a opção -DGGML_CUDA
    • Baixe o modelo no Hugging Face (hf download unsloth/Qwen3.5-XXB-GGUF)
    • Execute com os comandos llama-cli ou llama-server
  • Também é possível rodar no LM Studio
    • Após buscar o modelo, baixe o GGUF e ative o toggle de Thinking via arquivo YAML
    • Depois de reiniciar, a função de toggle poderá ser usada

Resumo de execução por modelo

  • Qwen3.5-35B-A3B: inferência rápida em Dynamic 4-bit com 24GB de RAM/Mac
  • Qwen3.5-27B: executável com 18GB de RAM/Mac
  • Qwen3.5-122B-A10B: funciona em ambiente Mac com 70GB de RAM
  • Qwen3.5-397B-A17B:
    • 3-bit: requer 192GB de RAM; 4-bit: requer 256GB de RAM
    • Combinando GPU de 24GB + RAM de 256GB, gera mais de 25 tokens por segundo
    • Nível de desempenho semelhante ao Gemini 3 Pro, Claude Opus 4.5 e GPT-5.2

Servidor de inferência e integração via API

  • É possível publicar em formato de API compatível com OpenAI usando llama-server
    • A biblioteca Python openai pode enviar requisições ao servidor local
    • Exemplo: uso do endpoint "http://127.0.0.1:8001/v1";
  • Suporte a Tool Calling
    • É possível chamar funções para execução de código Python, comandos de terminal, operações matemáticas etc.
    • É fornecido um exemplo de código unsloth_inference()

Resultados de benchmark

  • Benchmark de GGUF da Unsloth
    • A quantização dinâmica do Qwen3.5-35B apresentou desempenho SOTA na maioria das faixas de bits
    • Mais de 150 testes de KL Divergence e uso total de 9TB de dados GGUF
    • Melhor desempenho na Fronteira de Pareto em 99.9% KLD
  • Qwen3.5-397B-A17B
    • Em testes de terceiros por Benjamin Marie
      • Original 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
      • Queda de precisão inferior a 1 ponto, com economia de cerca de 500GB de memória
    • O Q3 é apresentado como opção para economizar memória, e o Q4 como opção mais estável

Outros recursos

  • São fornecidos comandos para ativar/desativar Reasoning (--chat-template-kwargs)
  • Integração possível com Claude Code / OpenAI Codex
  • O Tool Calling Guide permite configurar chamadas de ferramentas com LLM local
  • Incompatível com Ollama, com suporte apenas a backends baseados em llama.cpp

2 comentários

 
tensun 2026-03-09

Estou usando o 27b no hx370 e os resultados são bons.

 
GN⁺ 2026-03-09
Comentários no Hacker News
  • Testei o Qwen3.5 9B em uma ASUS 5070ti 16G com o LM Studio, e ele rodou de forma muito estável a cerca de 100 tok/s
    É mais rápido do que a maioria dos serviços de LLM online, e a qualidade da saída também bate com o nível visto nos benchmarks
    Foi a primeira vez que rodei um modelo realmente utilizável em hardware de consumidor

    • Fiquei na dúvida se “melhor do que serviço online” é no critério de velocidade, ou se é uma comparação da qualidade do próprio modelo
      Imagino que não seja uma comparação de usabilidade com modelos topo de linha como Sonnet ou Opus
    • Queria saber qual é o tamanho de contexto e o desempenho nessa configuração
      Para trabalho de programação, preciso de pelo menos 100k de contexto
    • Você por acaso resolveu o problema do Thinking mode?
      No meu caso ele entrava em loop infinito, então desliguei, e mudar vários parâmetros não resolveu
    • O Qwen3.5 27B em quantização 4bit cabe em 16G de VRAM
      A qualidade fica no nível do Sonnet 4.0 do verão de 2025, e no ik_llama.cpp a velocidade também é muito boa
    • Você usa isso integrado ao Claude Code?
      A orquestração parece ser bem importante
  • Está escrito “All uploads use Unsloth Dynamic 2.0”, mas nas opções reais aparecem várias como IQ4_XS, Q4_K_S e Q4_K_M
    Isso é confuso porque não há explicação dos trade-offs de cada uma
    No Mac mini M4 16GB, eu uso principalmente o Qwen3-4B-Instruct-2507-Q4_K_M, mas o Qwen3.5-4B-UD-Q4_K_XL é muito mais falante
    As necessidades variam de usuário para usuário, mas seria ótimo ter uma tabela com configurações por modelo/hardware e uso de memória
    Mesmo no Reddit quase não há exemplos concretos de configuração
    Estou acompanhando esse tema há 3 meses, e tem mais confusão do que informação clara
    Por enquanto uso o coder-model do qwen CLI na nuvem, esperando surgir um modelo local de baixo consumo

    • O benchmark GGUF do Unsloth para Qwen3.5 pode ajudar
      Há uma comparação de KL Divergence por espaço em disco entre Q4_K_XL e Q4_K_M
      Q4_0 e Q4_1 são rápidos, mas perdem em precisão, então hoje em dia não são mais recomendados
      Q4_K_M e UD-Q4_K_XL são quase idênticos, com o _XL sendo ligeiramente maior
    • O LocalScore.ai é um site feito pelo Mozilla Builders com o objetivo de mapear modelos e hardware assim
      Mas ainda não há dados sobre o Qwen3.5
    • Testei o ollama com qwen3.5:4b em um Mac M1; as chamadas de ferramenta funcionaram razoavelmente, mas ele é lento e se confunde em tarefas complexas
      Talvez o problema seja lidar com código Rust
      Quando rodei o qwen3.5-35b-a3b quantizado em 6bit numa 4090, o resultado foi bem bom
      Hoje uso o qwen3.5-27b 8bit como motor principal e estou satisfeito
    • O guia para escolher quantização de modelo também vale a consulta
  • Sempre que sai um novo modelo aberto, eu testo as velocidades de PP (processamento do prompt) e TG (geração de tokens) com llama-cpp/server
    Fiz os testes num MacBook M1 Max 64GB, em ambiente Claude Code (15~30K de contexto)
    O Qwen3.5-30B-A3B tem velocidade de TG pela metade do Qwen3-30B-A3B
    O Qwen3.5 usa menos RAM graças ao sliding window attention e a qualidade das respostas é boa, mas com 33k de contexto a velocidade fica lenta
    Os detalhes da configuração estão resumidos neste documento

  • No meu benchmark pessoal, usei a API do DeepSeek como base e fiz a avaliação com Claude Opus
    O Qwen3.5 35B A3B (q8_0, thinking) ficou em 92,5%, e o Q4_K_M (thinking) em cerca de 90%
    Eu esperava que o modelo denso de 27B fosse pontuar mais alto, então foi uma surpresa
    Mas esse número é uma avaliação de resposta one-shot, então não reflete cenários iterativos de agente

    • É interessante que o 35B A3B tenha ficado acima do 27B
      Talvez uma inconsistência lógica no prompt tenha atrapalhado o raciocínio do 27B
      Observando o thinking trace talvez dê para depurar a causa
    • Também queria saber se existe algum modelo thinking que quase não aumente a latência
  • Testei o Qwen3.5 9B na CPU para OCR e limpeza de texto, e ele é bem utilizável
    Só que o offloading para GPU não estava funcionando direito, então numa 1650 Ti com 4GB de VRAM estourava memória

    • Tive o mesmo problema, mas resolvi com atualização de driver
      Foi possível com o comando sudo apt install nvidia-driver-570
    • Na combinação 1660ti + cachyos + llama.cpp-cuda funciona bem
      O modelo 35B roda em velocidade parecida com a do 4B, mas é muito mais poderoso
      Só que o qwen3.5 é metade da velocidade do qwen3
      Ainda assim, no geral estou satisfeito
    • Ao compilar do código-fonte, o backend Vulkan é o jeito mais simples de fazer offloading para GPU
  • Estou rodando o Qwen3.5:0.8b muito bem só na CPU num Orangepi Zero 2w
    Quando quero usar a GPU Vulkan, executo o qwen3.5:2b no Meta Quest 3 com zeroclaw
    Isso me fez economizar algumas centenas de dólares em ambiente de baixo consumo
    Recomendo tentar rodar modelos locais em um celular Android usado

  • Queria saber se existe algum lugar oferecendo o modelo 9B em forma de hospedagem
    Num ambiente corporativo em que é difícil alugar GPU, o OpenRouter não tem modelos pequenos
    Seria bom existir um template serverless no runpod
    Também queria saber se o modelo 9B consegue rodar com baixa latência numa 4090 em 8bit ou 6bit

  • Testei o Qwen3.5 35B-A3B numa RTX 3050 8GB, e ele pareceu bem responsivo e também lidou bem com tarefas de programação
    A versão anterior tinha problema de entrar em loop durante uso de ferramentas, mas parece que isso foi corrigido na nova versão

    • Queria saber se ele faz offloading para a RAM do sistema
      Também gostaria de ver números de tok/s
      Parece que até num notebook com RTX 3060 daria para usar bem como servidor local
    • Queria saber que exemplos de tarefas de programação você testou
      Não imaginava que um modelo local fosse se sair tão bem
    • Você poderia informar o nome exato do modelo que usou?
  • Tenho curiosidade sobre como o modelo 397B-A17B se compara ao Frontier
    Provavelmente exigiria hardware num nível que a maioria das pessoas não consegue rodar

    • Usei via OpenRouter, e ele é muito bom, mas em algumas tarefas o Frontier ainda é melhor
      Pessoalmente, acho que o modelo 122B já me satisfaz bastante em termos de privacidade e redução de custos
  • Queria saber se esse modelo roda num servidor antigo com 4xV100 Tesla
    As configurações relacionadas a fp são complicadas, então para quem está começando é difícil de entender