Quantização do modelo Qwen3.5: por que a versão da comunidade perde desempenho

(x.com/Brooooook_lyn)

18 pontos por ragingwind 11 일 전 | 4 comentários | Compartilhar no WhatsApp

Foi tecnicamente identificado o motivo pelo qual modelos Qwen3.5 em formato MLX distribuídos pela comunidade apresentam erros de chamada de ferramentas, saídas sem sentido e fenômenos de alucinação em quantization, a técnica de compressão que torna modelos de IA menores e mais rápidos. O conteúdo, apresentado pela Unsloth, empresa de ferramentas de fine-tuning de IA, propõe a causa e a solução com base em mais de 150 experimentos de benchmark.

Resumo principal

Quantização é a técnica de comprimir os dados numéricos de um modelo para uma precisão menor (menos bits), reduzindo o tamanho do arquivo e a quantidade de computação
A maioria das ferramentas de quantização da comunidade usa quantização uniforme, que aplica o mesmo número de bits a todas as camadas
O Qwen3.5 tem uma estrutura híbrida em que camadas comuns de self-attention e camadas de atenção linear chamadas GatedDeltaNet se alternam
O núcleo do problema está na camada linear_attn.out_proj, cuja sensibilidade à perda de informação em compressão de 4 bits é cerca de 120 vezes maior do que a da camada de saída (lm_head)
A quantização uniforme tem um problema estrutural: desperdiça precisão em partes pouco importantes e destrói justamente as camadas mais sensíveis

A solução da Unsloth

Foi aplicada uma abordagem de quantização de bits mistos, que distribui diferentes quantidades de bits conforme a sensibilidade real de cada camada
Camadas MLP com baixa sensibilidade usam 3 bits; camadas de atenção Q/K/V usam 5 bits com AWQ (técnica de correção de pesos); e a camada de saída mais sensível mantém precisão total em bf16
Em vez da Wikipédia, foram usados exemplos de conversação, código e chamada de ferramentas como dados de calibração, permitindo calcular a importância de forma alinhada ao ambiente real de uso

Vantagens e desvantagens

Vantagem: a qualidade de chamadas de ferramentas, saídas estruturadas e geração de código melhora muito em relação às versões anteriores da comunidade. No MLX, foi alcançado desempenho equivalente ao da mesma versão em GGUF
Desvantagem: como algumas camadas sensíveis precisam permanecer em bf16, o tamanho em disco fica maior do que em modelos puramente de poucos bits

Diferenciais

Enquanto ferramentas anteriores da comunidade comprimiam tudo em bloco sem considerar a estrutura, a Unsloth derivou cientificamente o número ideal de bits por camada por meio de mais de 150 experimentos de KLD (métrica de medição de perda de informação) e comparação de 121 configurações
Também chama atenção o fato de ter demonstrado empiricamente que a qualidade dos dados de calibração determina a qualidade da compressão

Implicações

Fica novamente confirmado que compressão de modelos de IA não é apenas uma questão de reduzir bits; entender a estrutura interna do modelo é essencial
Também fica a lição prática de que, ao usar em produção modelos leves distribuídos pela comunidade, é indispensável verificar o método de quantização e os dados de calibração usados por quem os publicou

4 comentários

iiiiiiiiiiiii 9 일 전

Na prática, se você comprimir agressivamente camadas que não são tão importantes, a perda não é grande. Em alguns casos, mesmo com quantização de 2 bits não há perda perceptível.
Mas os modelos da comunidade quantizam todas as camadas de uma vez, e é aí que o problema acontece.

jeeeyul 11 일 전

Isso acontece porque as dimensões e as camadas do modelo não foram quantizadas de forma uniforme. Como sempre foi.

ryj0902 10 일 전

Uau......!

mammal 11 일 전

O fundador da Unsloth, Daniel Han, parece realmente um gênio. Sempre que sai um modelo de pesos abertos, ele analisa e compartilha desde a arquitetura do modelo até bugs de tokenização, erros de quantização e erros de template, o que é realmente admirável.

Quantização do modelo Qwen3.5: por que a versão da comunidade perde desempenho

Leituras relacionadas

4 comentários