16 pontos por GN⁺ 2026-03-06 | 2 comentários | Compartilhar no WhatsApp
  • A família de modelos Qwen3.5 (0.8B~122B) pode passar por fine-tuning baseado em texto e visão com o Unsloth, um framework open source para fine-tuning de LLMs e aprendizado por reforço
  • O Unsloth oferece velocidade de treinamento 1,5x maior em comparação com FlashAttention-2 e redução de 50% no uso de VRAM, permitindo treinamento eficiente com a configuração bf16 LoRA
  • É possível testar gratuitamente os modelos 0.8B, 2B e 4B por meio de notebooks no Colab, e também são fornecidos notebooks dos modelos 27B e 35B para ambiente A100
  • Os modelos MoE (35B, 122B etc.) oferecem, com kernels mais recentes, treinamento 12x mais rápido, 35% menos VRAM e comprimento de contexto 6x maior
  • Após o treinamento, o modelo pode ser exportado para vários formatos de implantação, como GGUF, vLLM, Ollama, LM Studio e SGLang

Visão geral do fine-tuning do Qwen3.5

  • A família de modelos Qwen3.5 (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) pode ser ajustada com o Unsloth
    • Suporte tanto para texto quanto para visão
    • Qwen3.5‑35B‑A3B bf16 LoRA roda com 74GB de VRAM
  • O Unsloth oferece treinamento 1,5x mais rápido e 50% menos uso de VRAM
    • Uso de VRAM: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
  • É possível testar os modelos 0.8B, 2B e 4B com notebooks gratuitos no Google Colab
  • Para manter a capacidade de raciocínio, é recomendada uma composição de dados com mais de 75% de exemplos de reasoning
  • Full Fine-Tuning (FFT) também é possível, mas o uso de VRAM aumenta 4x

Ambiente e configuração de treinamento

  • O Qwen3.5 é um modelo multilíngue com suporte a 201 idiomas
  • Reinforcement Learning (RL) e Vision RL (VLM RL) também são suportados via Unsloth
  • notebooks Colab com A100 disponíveis: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • Para treinamento local, é necessário atualizar para a versão mais recente
    • Comando: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 é obrigatório; versões antigas não funcionam
  • O treinamento inicial pode ser lento devido à compilação do kernel Mamba Triton (especialmente em GPU T4)
  • O treinamento com QLoRA (4-bit) não é recomendado

Fine-tuning de modelos MoE (35B, 122B)

  • Suporte aos modelos Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B
    • Treinamento 12x mais rápido, 35% menos VRAM e contexto 6x maior
  • Recomenda-se bf16 LoRA ou Full Fine-Tuning
  • MoE QLoRA 4-bit não é recomendado devido às limitações do BitsandBytes
  • O kernel MoE do Unsloth vem ativado por padrão, e o backend pode ser alternado com UNSLOTH_MOE_BACKEND
  • O router-layer fine-tuning vem desativado por padrão por motivos de estabilidade
  • Qwen3.5‑122B‑A10B bf16 LoRA requer 256GB de VRAM
    • Ao usar múltiplas GPUs, defina device_map = "balanced" ou consulte o guia de multiGPU

Quickstart

  • Há um exemplo de SFT somente para texto (fine-tuning supervisionado)
  • O Qwen3.5 tem estrutura de Causal Language Model + Vision Encoder
    • É necessário instalar as dependências de visão (torchvision, pillow)
  • Recomenda-se usar a versão mais recente do Transformers
  • O treinamento com GRPO pode ser executado com inferência do Unsloth após desativar o fast vLLM
  • Em caso de OOM (estouro de memória)
    • per_device_train_batch_size=1, reduzir max_seq_length
    • Manter gradient_checkpointing="unsloth" para economizar VRAM e ampliar o contexto
  • Há um exemplo de loader MoE bf16 LoRA

Fine-tuning de visão

  • Há suporte a fine-tuning de visão para modelos multimodais Qwen3.5
    • É possível usar os notebooks de RL GRPO/GSPO do Qwen3-VL (bastando trocar o nome do modelo)
  • É possível escolher entre treinamento somente de visão/texto
    • Fine-tuning seletivo entre camadas de Vision, Language, Attention e MLP
    • O padrão é tudo ativado
  • Para treinamento com múltiplas imagens, consulte o guia separado de multi-image vision

Salvamento e implantação do modelo

  • Suporte a vários modos de implantação, como llama.cpp, vLLM, llama-server, Ollama, LM Studio e SGLang

Salvar em GGUF

  • O Unsloth suporta salvar diretamente no formato GGUF e fazer upload para o Hugging Face
  • Se houver queda de desempenho na inferência, a principal causa costuma ser o uso de chat template incorreto ou token EOS inadequado

Salvar em vLLM

  • vLLM 0.16.0 não oferece suporte ao Qwen3.5
    • É necessário 0.170 ou superior ou a versão Nightly
  • É possível salvar em 16-bit e salvar apenas o adaptador LoRA
  • Para mais detalhes, consulte o guia de inferência do Unsloth

2 comentários

 
hmmhmmhm 2026-03-06

Da última vez que rodei fine-tuning via agente, pareceu que problemas de overfitting aconteciam com frequência dependendo dos dados; fico curioso para saber se neste notebook isso seria possível com a combinação de LoRA/QLoRA.

 
GN⁺ 2026-03-06
Comentários do Hacker News
  • Já experimentei fazer fine-tuning de modelos Qwen em hardware NVIDIA Jetson, e o desempenho foi surpreendentemente bom
    Implantei várias variantes de 7B para casos de uso de edge AI, e elas foram especialmente úteis em ambientes como inspeção industrial e análise de varejo, onde latência importa mais do que acurácia
    Graças ao fine-tuning com LoRA, o modelo ficou menor, encaixou bem na memória unificada e a velocidade de inferência em tempo real foi suficientemente rápida
    O que mais me surpreendeu foi a eficiência energética — o Jetson Orin conseguiu rodar inferência contínua com menos de 15W, economizando muito mais energia do que o vai-e-volta para a nuvem

    • Este comentário parece ter sido gerado por IA
      Hoje em dia vejo com frequência no Twitter e no Reddit comentários nesse formato de falsa anedota. Parecem escritos por uma pessoa real, mas soam como histórias totalmente inventadas
    • Interessante. Fico curioso sobre exemplos de tarefas industriais em que uma pequena queda de acurácia seria aceitável
    • Gostaria de ver casos concretos de que tipo de trabalho esses modelos fazem na prática
    • É uma pergunta simples, mas fico pensando se para esse tipo de uso uma rede neural tradicional já não seria suficiente
    • Você disse que roda um modelo 7B a 15W; queria saber qual modelo da linha Orin é
      Nano (40 TOPS), NX (100), AGX (275), ou se também testou modelos maiores no Thor (2070)
  • Tenho curiosidade sobre casos reais em que as pessoas fazem fine-tuning de modelos pequenos/médios para uso próprio

    • Tem um post no X que resume esse tema
      Post relacionado
      Por exemplo,
      1. Cursor aumentou a taxa de aceitação em 28% com RL online (link)
      2. Vercel aplicou RFT ao modelo AutoFix (link)
      3. Perplexity Sonar é um modelo ajustado para Deep Research Reasoning (link)
      4. DoorDash construiu um modelo de extração de atributos com LoRA/QLoRA (link)
      5. Modelo de detecção de enchentes da NASA (link)
      6. RL online para robótica
      7. Coletânea de casos de OpenAI RFT (link)
      8. Mercor melhorando o desempenho do modelo com dados de especialistas (link)
    • Fiz benchmark de uma tarefa simples de classificação de documentos com vários modelos
      Comparei acurácia e custo entre modelos como Llama-70B, Gemma-4B e Ministral-14B,
      e até os modelos de 4B mostraram um desempenho bastante decente.
      Mas dá a sensação de que se perdeu a intuição sobre a relação entre quantidade de dados e ganho de desempenho
      Estou pensando em tentar fazer fine-tuning por conta própria
    • Estou pensando em fazer fine-tuning para melhorar a precisão no reconhecimento da minha caligrafia
      O modelo base já funciona bem, mas por causa da minha letra ruim às vezes ocorrem erros de reconhecimento
    • Como bom exemplo, recomendo o guia de treinamento de LLM do blog da Atredis
  • Ultimamente parece que a necessidade de fine-tuning em LLMs está diminuindo cada vez mais
    Os modelos mais recentes conseguem executar tarefas complexas muito bem só com few-shot learning
    Modelos como o Qwen3.5, com janelas de contexto grandes, muitas vezes podem ser substituídos por um bom prompt engineering
    Isso ainda faz sentido para modelos de imagem ou LLMs antigos, mas nos LLMs de texto está ficando cada vez mais ineficiente

    • Se você fizer fine-tuning de um modelo pequeno para um output estruturado específico, dá para rodar inferência em larga escala com baixo custo
      Expandir o contexto em modelos grandes sai caro demais
    • Os LLMs estão evoluindo, mas ainda há muito potencial em áreas como aprendizado contínuo em robótica e fine-tuning multimodal com LoRA
      Guias como o da Unsloth mostram que também dá para fazer fine-tuning de visão + texto
      No futuro, roteamento de modelos deve se tornar algo comum: usar localmente pequenos modelos com LoRA e mandar tarefas complexas para a nuvem
      Na prática, DoorDash, Vercel, NASA e Cursor também estão fazendo seu próprio fine-tuning
    • Eu tentei fazer fine-tuning de um modelo para combinar com meu estilo de escrita
      Testei com Claude, Qwen, Llama e Gemma, mas a transferência de estilo não funcionou bem
      Mesmo usando centenas dos meus comentários como dados de treino, os modelos Instruct já estavam ajustados demais, então praticamente não dava para fazer mais aprendizado adicional
    • Em resumo, a resposta é por causa de dados adultos
      O Qwen filtrou esse tipo de dado durante o treinamento, então só dá para restaurar isso com fine-tuning
      Exemplo de trabalho relacionado: modelo LoRA do Qwen3 por chenrm
    • Em serviços reais, o fine-tuning ainda é importante
      A combinação de comportamento determinístico e auditável, redução de alucinações e LoRA/QLoRA para reduzir custos é útil
      Se usar RAG junto com FAISS vector DB, dá para evitar a explosão de contexto
      No longo prazo, gerenciar pequenos adaptadores é muito mais eficiente do que ficar ajustando prompts
  • É uma pena que alguns dos líderes da equipe Qwen tenham sido substituídos
    Tenho receio de que, com a nova gestão ficando mais focada em negócios, o espírito open source enfraqueça

  • Só com uma abordagem de RAG centrada em documentos já parece suficiente, então fico na dúvida se o fine-tuning realmente entrega resultados melhores

    • Modelos especializados de fato superam o SOTA
      Exemplo: FlashCheck
    • Antigamente o modelo tab-next-action do Cursor virou um grande assunto, mas na verdade era uma versão com fine-tuning de um modelo 70B
  • Este material parece tratar apenas de grandes modelos MoE
    A maioria dos usuários provavelmente quer trabalhar com modelos pequenos (ex.: 9B),
    e esse modelo usa uma arquitetura híbrida Mamba, então talvez exija considerações à parte