Guia de fine-tuning do Qwen3.5

(unsloth.ai)

16 pontos por GN⁺ 2026-03-06 | 2 comentários | Compartilhar no WhatsApp

A família de modelos Qwen3.5 (0.8B~122B) pode passar por fine-tuning baseado em texto e visão com o Unsloth, um framework open source para fine-tuning de LLMs e aprendizado por reforço
O Unsloth oferece velocidade de treinamento 1,5x maior em comparação com FlashAttention-2 e redução de 50% no uso de VRAM, permitindo treinamento eficiente com a configuração bf16 LoRA
É possível testar gratuitamente os modelos 0.8B, 2B e 4B por meio de notebooks no Colab, e também são fornecidos notebooks dos modelos 27B e 35B para ambiente A100
Os modelos MoE (35B, 122B etc.) oferecem, com kernels mais recentes, treinamento 12x mais rápido, 35% menos VRAM e comprimento de contexto 6x maior
Após o treinamento, o modelo pode ser exportado para vários formatos de implantação, como GGUF, vLLM, Ollama, LM Studio e SGLang

Visão geral do fine-tuning do Qwen3.5

A família de modelos Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) pode ser ajustada com o Unsloth
- Suporte tanto para texto quanto para visão
- Qwen3.5‑35B‑A3B bf16 LoRA roda com 74GB de VRAM
O Unsloth oferece treinamento 1,5x mais rápido e 50% menos uso de VRAM
- Uso de VRAM: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
É possível testar os modelos 0.8B, 2B e 4B com notebooks gratuitos no Google Colab
Para manter a capacidade de raciocínio, é recomendada uma composição de dados com mais de 75% de exemplos de reasoning
Full Fine-Tuning (FFT) também é possível, mas o uso de VRAM aumenta 4x

Ambiente e configuração de treinamento

O Qwen3.5 é um modelo multilíngue com suporte a 201 idiomas
Reinforcement Learning (RL) e Vision RL (VLM RL) também são suportados via Unsloth
Há notebooks Colab com A100 disponíveis: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
Para treinamento local, é necessário atualizar para a versão mais recente
- Comando: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 é obrigatório; versões antigas não funcionam
O treinamento inicial pode ser lento devido à compilação do kernel Mamba Triton (especialmente em GPU T4)
O treinamento com QLoRA (4-bit) não é recomendado

Fine-tuning de modelos MoE (35B, 122B)

Suporte aos modelos Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Treinamento 12x mais rápido, 35% menos VRAM e contexto 6x maior
Recomenda-se bf16 LoRA ou Full Fine-Tuning
MoE QLoRA 4-bit não é recomendado devido às limitações do BitsandBytes
O kernel MoE do Unsloth vem ativado por padrão, e o backend pode ser alternado com UNSLOTH_MOE_BACKEND
O router-layer fine-tuning vem desativado por padrão por motivos de estabilidade
Qwen3.5‑122B‑A10B bf16 LoRA requer 256GB de VRAM
- Ao usar múltiplas GPUs, defina device_map = "balanced" ou consulte o guia de multiGPU

Quickstart

Há um exemplo de SFT somente para texto (fine-tuning supervisionado)
O Qwen3.5 tem estrutura de Causal Language Model + Vision Encoder
- É necessário instalar as dependências de visão (torchvision, pillow)
Recomenda-se usar a versão mais recente do Transformers
O treinamento com GRPO pode ser executado com inferência do Unsloth após desativar o fast vLLM
Em caso de OOM (estouro de memória)
- per_device_train_batch_size=1, reduzir max_seq_length
- Manter gradient_checkpointing="unsloth" para economizar VRAM e ampliar o contexto
Há um exemplo de loader MoE bf16 LoRA

Fine-tuning de visão

Há suporte a fine-tuning de visão para modelos multimodais Qwen3.5
- É possível usar os notebooks de RL GRPO/GSPO do Qwen3-VL (bastando trocar o nome do modelo)
É possível escolher entre treinamento somente de visão/texto
- Fine-tuning seletivo entre camadas de Vision, Language, Attention e MLP
- O padrão é tudo ativado
Para treinamento com múltiplas imagens, consulte o guia separado de multi-image vision

Salvamento e implantação do modelo

Suporte a vários modos de implantação, como llama.cpp, vLLM, llama-server, Ollama, LM Studio e SGLang

Salvar em GGUF

O Unsloth suporta salvar diretamente no formato GGUF e fazer upload para o Hugging Face
Se houver queda de desempenho na inferência, a principal causa costuma ser o uso de chat template incorreto ou token EOS inadequado

Salvar em vLLM

vLLM 0.16.0 não oferece suporte ao Qwen3.5
- É necessário 0.170 ou superior ou a versão Nightly
É possível salvar em 16-bit e salvar apenas o adaptador LoRA
Para mais detalhes, consulte o guia de inferência do Unsloth

2 comentários

hmmhmmhm 2026-03-06

Da última vez que rodei fine-tuning via agente, pareceu que problemas de overfitting aconteciam com frequência dependendo dos dados; fico curioso para saber se neste notebook isso seria possível com a combinação de LoRA/QLoRA.

GN⁺ 2026-03-06

Comentários do Hacker News

Já experimentei fazer fine-tuning de modelos Qwen em hardware NVIDIA Jetson, e o desempenho foi surpreendentemente bom
Implantei várias variantes de 7B para casos de uso de edge AI, e elas foram especialmente úteis em ambientes como inspeção industrial e análise de varejo, onde latência importa mais do que acurácia
Graças ao fine-tuning com LoRA, o modelo ficou menor, encaixou bem na memória unificada e a velocidade de inferência em tempo real foi suficientemente rápida
O que mais me surpreendeu foi a eficiência energética — o Jetson Orin conseguiu rodar inferência contínua com menos de 15W, economizando muito mais energia do que o vai-e-volta para a nuvem
- Este comentário parece ter sido gerado por IA
  Hoje em dia vejo com frequência no Twitter e no Reddit comentários nesse formato de falsa anedota. Parecem escritos por uma pessoa real, mas soam como histórias totalmente inventadas
- Interessante. Fico curioso sobre exemplos de tarefas industriais em que uma pequena queda de acurácia seria aceitável
- Gostaria de ver casos concretos de que tipo de trabalho esses modelos fazem na prática
- É uma pergunta simples, mas fico pensando se para esse tipo de uso uma rede neural tradicional já não seria suficiente
- Você disse que roda um modelo 7B a 15W; queria saber qual modelo da linha Orin é
  Nano (40 TOPS), NX (100), AGX (275), ou se também testou modelos maiores no Thor (2070)
Tenho curiosidade sobre casos reais em que as pessoas fazem fine-tuning de modelos pequenos/médios para uso próprio
- Tem um post no X que resume esse tema
  Post relacionado
  Por exemplo,
  1. Cursor aumentou a taxa de aceitação em 28% com RL online (link)
  2. Vercel aplicou RFT ao modelo AutoFix (link)
  3. Perplexity Sonar é um modelo ajustado para Deep Research Reasoning (link)
  4. DoorDash construiu um modelo de extração de atributos com LoRA/QLoRA (link)
  5. Modelo de detecção de enchentes da NASA (link)
  6. RL online para robótica
  7. Coletânea de casos de OpenAI RFT (link)
  8. Mercor melhorando o desempenho do modelo com dados de especialistas (link)
- Fiz benchmark de uma tarefa simples de classificação de documentos com vários modelos
  Comparei acurácia e custo entre modelos como Llama-70B, Gemma-4B e Ministral-14B,
  e até os modelos de 4B mostraram um desempenho bastante decente.
  Mas dá a sensação de que se perdeu a intuição sobre a relação entre quantidade de dados e ganho de desempenho
  Estou pensando em tentar fazer fine-tuning por conta própria
- Estou pensando em fazer fine-tuning para melhorar a precisão no reconhecimento da minha caligrafia
  O modelo base já funciona bem, mas por causa da minha letra ruim às vezes ocorrem erros de reconhecimento
- Como bom exemplo, recomendo o guia de treinamento de LLM do blog da Atredis
Ultimamente parece que a necessidade de fine-tuning em LLMs está diminuindo cada vez mais
Os modelos mais recentes conseguem executar tarefas complexas muito bem só com few-shot learning
Modelos como o Qwen3.5, com janelas de contexto grandes, muitas vezes podem ser substituídos por um bom prompt engineering
Isso ainda faz sentido para modelos de imagem ou LLMs antigos, mas nos LLMs de texto está ficando cada vez mais ineficiente
- Se você fizer fine-tuning de um modelo pequeno para um output estruturado específico, dá para rodar inferência em larga escala com baixo custo
  Expandir o contexto em modelos grandes sai caro demais
- Os LLMs estão evoluindo, mas ainda há muito potencial em áreas como aprendizado contínuo em robótica e fine-tuning multimodal com LoRA
  Guias como o da Unsloth mostram que também dá para fazer fine-tuning de visão + texto
  No futuro, roteamento de modelos deve se tornar algo comum: usar localmente pequenos modelos com LoRA e mandar tarefas complexas para a nuvem
  Na prática, DoorDash, Vercel, NASA e Cursor também estão fazendo seu próprio fine-tuning
- Eu tentei fazer fine-tuning de um modelo para combinar com meu estilo de escrita
  Testei com Claude, Qwen, Llama e Gemma, mas a transferência de estilo não funcionou bem
  Mesmo usando centenas dos meus comentários como dados de treino, os modelos Instruct já estavam ajustados demais, então praticamente não dava para fazer mais aprendizado adicional
- Em resumo, a resposta é por causa de dados adultos
  O Qwen filtrou esse tipo de dado durante o treinamento, então só dá para restaurar isso com fine-tuning
  Exemplo de trabalho relacionado: modelo LoRA do Qwen3 por chenrm
- Em serviços reais, o fine-tuning ainda é importante
  A combinação de comportamento determinístico e auditável, redução de alucinações e LoRA/QLoRA para reduzir custos é útil
  Se usar RAG junto com FAISS vector DB, dá para evitar a explosão de contexto
  No longo prazo, gerenciar pequenos adaptadores é muito mais eficiente do que ficar ajustando prompts
É uma pena que alguns dos líderes da equipe Qwen tenham sido substituídos
Tenho receio de que, com a nova gestão ficando mais focada em negócios, o espírito open source enfraqueça
- Vi notícias relacionadas no X
  Notícia sobre reunião de emergência do CEO/CTO da Alibaba
  Espero que isso se resolva bem
Só com uma abordagem de RAG centrada em documentos já parece suficiente, então fico na dúvida se o fine-tuning realmente entrega resultados melhores
- Modelos especializados de fato superam o SOTA
  Exemplo: FlashCheck
- Antigamente o modelo tab-next-action do Cursor virou um grande assunto, mas na verdade era uma versão com fine-tuning de um modelo 70B
Este material parece tratar apenas de grandes modelos MoE
A maioria dos usuários provavelmente quer trabalhar com modelos pequenos (ex.: 9B),
e esse modelo usa uma arquitetura híbrida Mamba, então talvez exija considerações à parte