- A família de modelos Qwen3.5 (0.8B~122B) pode passar por fine-tuning baseado em texto e visão com o Unsloth, um framework open source para fine-tuning de LLMs e aprendizado por reforço
- O Unsloth oferece velocidade de treinamento 1,5x maior em comparação com FlashAttention-2 e redução de 50% no uso de VRAM, permitindo treinamento eficiente com a configuração bf16 LoRA
- É possível testar gratuitamente os modelos 0.8B, 2B e 4B por meio de notebooks no Colab, e também são fornecidos notebooks dos modelos 27B e 35B para ambiente A100
- Os modelos MoE (35B, 122B etc.) oferecem, com kernels mais recentes, treinamento 12x mais rápido, 35% menos VRAM e comprimento de contexto 6x maior
- Após o treinamento, o modelo pode ser exportado para vários formatos de implantação, como GGUF, vLLM, Ollama, LM Studio e SGLang
Visão geral do fine-tuning do Qwen3.5
- A família de modelos Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) pode ser ajustada com o Unsloth
- Suporte tanto para texto quanto para visão
- Qwen3.5‑35B‑A3B bf16 LoRA roda com 74GB de VRAM
- O Unsloth oferece treinamento 1,5x mais rápido e 50% menos uso de VRAM
- Uso de VRAM: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
- É possível testar os modelos 0.8B, 2B e 4B com notebooks gratuitos no Google Colab
- Para manter a capacidade de raciocínio, é recomendada uma composição de dados com mais de 75% de exemplos de reasoning
- Full Fine-Tuning (FFT) também é possível, mas o uso de VRAM aumenta 4x
Ambiente e configuração de treinamento
- O Qwen3.5 é um modelo multilíngue com suporte a 201 idiomas
- Reinforcement Learning (RL) e Vision RL (VLM RL) também são suportados via Unsloth
- Há notebooks Colab com A100 disponíveis: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- Para treinamento local, é necessário atualizar para a versão mais recente
- Comando:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- transformers v5 é obrigatório; versões antigas não funcionam
- O treinamento inicial pode ser lento devido à compilação do kernel Mamba Triton (especialmente em GPU T4)
- O treinamento com QLoRA (4-bit) não é recomendado
Fine-tuning de modelos MoE (35B, 122B)
- Suporte aos modelos Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
- Treinamento 12x mais rápido, 35% menos VRAM e contexto 6x maior
- Recomenda-se bf16 LoRA ou Full Fine-Tuning
- MoE QLoRA 4-bit não é recomendado devido às limitações do BitsandBytes
- O kernel MoE do Unsloth vem ativado por padrão, e o backend pode ser alternado com
UNSLOTH_MOE_BACKEND
- O router-layer fine-tuning vem desativado por padrão por motivos de estabilidade
- Qwen3.5‑122B‑A10B bf16 LoRA requer 256GB de VRAM
- Ao usar múltiplas GPUs, defina
device_map = "balanced" ou consulte o guia de multiGPU
Quickstart
- Há um exemplo de SFT somente para texto (fine-tuning supervisionado)
- O Qwen3.5 tem estrutura de Causal Language Model + Vision Encoder
- É necessário instalar as dependências de visão (
torchvision, pillow)
- Recomenda-se usar a versão mais recente do Transformers
- O treinamento com GRPO pode ser executado com inferência do Unsloth após desativar o fast vLLM
- Em caso de OOM (estouro de memória)
per_device_train_batch_size=1, reduzir max_seq_length
- Manter
gradient_checkpointing="unsloth" para economizar VRAM e ampliar o contexto
- Há um exemplo de loader MoE bf16 LoRA
Fine-tuning de visão
- Há suporte a fine-tuning de visão para modelos multimodais Qwen3.5
- É possível usar os notebooks de RL GRPO/GSPO do Qwen3-VL (bastando trocar o nome do modelo)
- É possível escolher entre treinamento somente de visão/texto
- Fine-tuning seletivo entre camadas de Vision, Language, Attention e MLP
- O padrão é tudo ativado
- Para treinamento com múltiplas imagens, consulte o guia separado de multi-image vision
Salvamento e implantação do modelo
- Suporte a vários modos de implantação, como llama.cpp, vLLM, llama-server, Ollama, LM Studio e SGLang
Salvar em GGUF
- O Unsloth suporta salvar diretamente no formato GGUF e fazer upload para o Hugging Face
- Se houver queda de desempenho na inferência, a principal causa costuma ser o uso de chat template incorreto ou token EOS inadequado
Salvar em vLLM
- vLLM 0.16.0 não oferece suporte ao Qwen3.5
- É necessário 0.170 ou superior ou a versão Nightly
- É possível salvar em 16-bit e salvar apenas o adaptador LoRA
- Para mais detalhes, consulte o guia de inferência do Unsloth
2 comentários
Da última vez que rodei fine-tuning via agente, pareceu que problemas de overfitting aconteciam com frequência dependendo dos dados; fico curioso para saber se neste notebook isso seria possível com a combinação de LoRA/QLoRA.
Comentários do Hacker News
Já experimentei fazer fine-tuning de modelos Qwen em hardware NVIDIA Jetson, e o desempenho foi surpreendentemente bom
Implantei várias variantes de 7B para casos de uso de edge AI, e elas foram especialmente úteis em ambientes como inspeção industrial e análise de varejo, onde latência importa mais do que acurácia
Graças ao fine-tuning com LoRA, o modelo ficou menor, encaixou bem na memória unificada e a velocidade de inferência em tempo real foi suficientemente rápida
O que mais me surpreendeu foi a eficiência energética — o Jetson Orin conseguiu rodar inferência contínua com menos de 15W, economizando muito mais energia do que o vai-e-volta para a nuvem
Hoje em dia vejo com frequência no Twitter e no Reddit comentários nesse formato de falsa anedota. Parecem escritos por uma pessoa real, mas soam como histórias totalmente inventadas
Nano (40 TOPS), NX (100), AGX (275), ou se também testou modelos maiores no Thor (2070)
Tenho curiosidade sobre casos reais em que as pessoas fazem fine-tuning de modelos pequenos/médios para uso próprio
Post relacionado
Por exemplo,
Comparei acurácia e custo entre modelos como Llama-70B, Gemma-4B e Ministral-14B,
e até os modelos de 4B mostraram um desempenho bastante decente.
Mas dá a sensação de que se perdeu a intuição sobre a relação entre quantidade de dados e ganho de desempenho
Estou pensando em tentar fazer fine-tuning por conta própria
O modelo base já funciona bem, mas por causa da minha letra ruim às vezes ocorrem erros de reconhecimento
Ultimamente parece que a necessidade de fine-tuning em LLMs está diminuindo cada vez mais
Os modelos mais recentes conseguem executar tarefas complexas muito bem só com few-shot learning
Modelos como o Qwen3.5, com janelas de contexto grandes, muitas vezes podem ser substituídos por um bom prompt engineering
Isso ainda faz sentido para modelos de imagem ou LLMs antigos, mas nos LLMs de texto está ficando cada vez mais ineficiente
Expandir o contexto em modelos grandes sai caro demais
Guias como o da Unsloth mostram que também dá para fazer fine-tuning de visão + texto
No futuro, roteamento de modelos deve se tornar algo comum: usar localmente pequenos modelos com LoRA e mandar tarefas complexas para a nuvem
Na prática, DoorDash, Vercel, NASA e Cursor também estão fazendo seu próprio fine-tuning
Testei com Claude, Qwen, Llama e Gemma, mas a transferência de estilo não funcionou bem
Mesmo usando centenas dos meus comentários como dados de treino, os modelos Instruct já estavam ajustados demais, então praticamente não dava para fazer mais aprendizado adicional
O Qwen filtrou esse tipo de dado durante o treinamento, então só dá para restaurar isso com fine-tuning
Exemplo de trabalho relacionado: modelo LoRA do Qwen3 por chenrm
A combinação de comportamento determinístico e auditável, redução de alucinações e LoRA/QLoRA para reduzir custos é útil
Se usar RAG junto com FAISS vector DB, dá para evitar a explosão de contexto
No longo prazo, gerenciar pequenos adaptadores é muito mais eficiente do que ficar ajustando prompts
É uma pena que alguns dos líderes da equipe Qwen tenham sido substituídos
Tenho receio de que, com a nova gestão ficando mais focada em negócios, o espírito open source enfraqueça
Notícia sobre reunião de emergência do CEO/CTO da Alibaba
Espero que isso se resolva bem
Só com uma abordagem de RAG centrada em documentos já parece suficiente, então fico na dúvida se o fine-tuning realmente entrega resultados melhores
Exemplo: FlashCheck
Este material parece tratar apenas de grandes modelos MoE
A maioria dos usuários provavelmente quer trabalhar com modelos pequenos (ex.: 9B),
e esse modelo usa uma arquitetura híbrida Mamba, então talvez exija considerações à parte