3 pontos por GN⁺ 2025-09-13 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O Qwen3-Next é uma nova arquitetura de modelo desenvolvida para dar suporte às tendências futuras dos modelos de grande escala: expansão do comprimento de contexto e aumento do total de parâmetros, oferecendo recursos para maximizar a eficiência de treinamento e inferência
  • Introduz um mecanismo de atenção híbrido e uma estrutura MoE altamente esparsa para melhorar o desempenho em contextos longos e configurações com grande número de parâmetros
  • Otimização da estabilidade de treinamento e mecanismo de previsão de múltiplos tokens aceleram a velocidade de inferência
  • O modelo Qwen3-Next-80B-A3B-Base atinge desempenho equivalente ou superior ao Qwen3-32B, reduzindo o custo de treinamento para menos de 10%
  • O lançamento deste modelo oferece à comunidade open source avanços arquiteturais de ponta e estabelece a base para ganhos de inteligência e produtividade que levarão ao desenvolvimento do Qwen3.5

Introdução

  • Com a convicção de que as principais tendências futuras dos modelos de grande escala são a expansão do comprimento de contexto e o aumento do total de parâmetros, foi projetada uma nova arquitetura chamada Qwen3-Next para elevar a eficiência de treinamento e inferência em cenários de contexto longo e grande quantidade de parâmetros
  • Em comparação com a estrutura MoE do Qwen3, foram introduzidas várias melhorias centrais, como mecanismo de atenção híbrido, estrutura MoE altamente esparsa, otimização da estabilidade de treinamento e um mecanismo de previsão de múltiplos tokens para inferência mais rápida
  • Com base nessa arquitetura, foi treinado o modelo Qwen3-Next-80B-A3B-Base, um modelo de 80 bilhões de parâmetros que ativa apenas 3 bilhões durante a inferência
  • Esse modelo base alcança desempenho equivalente ou levemente superior ao modelo denso Qwen3-32B, usando menos de 10% do custo de treinamento (tempo de GPU)
  • Em especial, oferece mais de 10 vezes mais throughput em comprimentos de contexto acima de 32K tokens, alcançando eficiência extrema em treinamento e inferência
  • Com base no Qwen3-Next-80B-A3B-Base, foram desenvolvidas e lançadas duas versões pós-treinadas: Qwen3-Next-80B-A3B-Instruct e Qwen3-Next-80B-A3B-Thinking
  • A arquitetura híbrida de atenção e MoE altamente esparsa resolve antigos problemas de estabilidade e eficiência no treinamento com aprendizado por reforço (RL), melhorando tanto a velocidade de treinamento em RL quanto o desempenho final
  • O Qwen3-Next-80B-A3B-Instruct apresenta desempenho equivalente ao modelo flagship Qwen3-235B-A22B-Instruct-2507, com vantagem clara em tarefas de contexto ultralongo de até 256K tokens
  • O Qwen3-Next-80B-A3B-Thinking se destaca em tarefas complexas de raciocínio, supera modelos mais caros como Qwen3-30B-A3B-Thinking-2507 e Qwen3-32B-Thinking, ultrapassa o Gemini-2.5-Flash-Thinking de código fechado em vários benchmarks e se aproxima do desempenho do modelo topo de linha Qwen3-235B-A22B-Thinking-2507
  • O Qwen3-Next já foi lançado no Hugging Face e no ModelScope, e qualquer pessoa pode usar os serviços do Qwen3-Next via Alibaba Cloud Model Studio e NVIDIA API Catalog

Principais recursos

  • Arquitetura híbrida: Gated DeltaNet + Gated Attention aproveita o fato de que a atenção linear rompe a complexidade quadrática da atenção padrão e é mais eficiente em contextos longos
    • Foi observado que a atenção linear é rápida, mas tem recall fraco, enquanto a atenção padrão é cara e lenta; por meio de experimentos sistemáticos, confirmou-se que o Gated DeltaNet oferece capacidade de aprendizado in-context mais forte do que métodos comuns como Sliding Window Attention ou Mamba2
    • Ao combinar Gated DeltaNet com atenção padrão na proporção de 3:1 (75% das camadas usam Gated DeltaNet e 25% mantêm atenção padrão), foi obtido desempenho e eficiência consistentemente superiores aos de arquiteturas únicas
    • Nas camadas de atenção padrão, foi adotado um mecanismo de gating na saída para reduzir o problema de baixa rank da atenção, e a dimensão por attention head foi aumentada de 128 para 256
    • O rotary positional encoding é aplicado apenas aos primeiros 25% da dimensão posicional para melhorar a extrapolação para sequências mais longas
  • MoE ultraesparso: apenas 3,7% dos parâmetros ativados; o Qwen3-Next adota um design MoE altamente esparso que ativa cerca de 3B dos 80B parâmetros totais por etapa de inferência
    • Experimentos mostram que, ao fixar os especialistas ativados por meio de balanceamento global de carga, a perda de treinamento cai de forma constante à medida que o total de parâmetros de especialistas aumenta
    • Em comparação com o MoE do Qwen3 (128 especialistas no total, 8 roteados), o Qwen3-Next expande para 512 especialistas no total e combina 10 especialistas roteados + 1 especialista compartilhado para maximizar o uso de recursos sem degradar o desempenho
  • Design voltado à estabilidade de treinamento: o mecanismo de gating na saída da atenção elimina problemas como Attention Sink e Massive Activation, garantindo estabilidade numérica em todo o modelo
    • Foi identificado no QK-Norm usado no Qwen3 um problema em que alguns pesos de layer norm cresciam de forma anormal; por isso, o Qwen3-Next adota Zero-Centered RMSNorm e aplica weight decay aos pesos de normalização para evitar crescimento infinito
    • Os parâmetros do roteador MoE são normalizados durante a inicialização para que cada especialista seja selecionado sem viés no início do treinamento, reduzindo o ruído causado pela inicialização aleatória
    • Esse design centrado em estabilidade torna experimentos de pequena escala mais confiáveis e permite executar treinamento em grande escala com mais fluidez
  • Previsão de múltiplos tokens: o Qwen3-Next introduz um mecanismo nativo de multi-token prediction (MTP), que não apenas gera módulos MTP com alta taxa de aceitação para speculative decoding, mas também melhora o desempenho geral
    • O Qwen3-Next otimiza especialmente o desempenho de inferência em múltiplas etapas do MTP e, por meio de treinamento multiestágio que mantém consistência entre treinamento e inferência, melhora ainda mais a taxa de aceitação do speculative decoding em cenários reais

Pré-treinamento

  • Eficiência de pré-treinamento e velocidade de inferência: o Qwen3-Next foi treinado em um subconjunto uniformemente amostrado (15T tokens) do corpus de pré-treinamento de 36T tokens do Qwen3
    • Usa menos de 80% do tempo de GPU necessário para o Qwen3-30A-3B e consome apenas 9,3% do custo computacional do Qwen3-32B, alcançando desempenho melhor e demonstrando excelente eficiência de treinamento e custo-benefício
    • Graças à arquitetura híbrida, também se destaca na inferência, oferecendo quase 7 vezes mais throughput do que o Qwen3-32B na fase de prefill com comprimento de contexto de 4K
    • Acima de 32K, é mais de 10 vezes mais rápido
    • Na etapa de decode, apresenta quase 4 vezes mais throughput em contexto de 4K e mantém vantagem de velocidade superior a 10 vezes acima de 32K
  • Desempenho do modelo base: o Qwen3-Next-80B-A3B-Base ativa apenas 1/10 dos parâmetros não embedding do Qwen3-32B-Base e ainda o supera na maioria dos benchmarks, além de ficar muito à frente do Qwen3-30B-A3B, comprovando eficiência excepcional e desempenho robusto

Pós-treinamento

  • Desempenho do modelo Instruct: o Qwen3-Next-80B-A3B-Instruct supera amplamente o Qwen3-30B-A3B-Instruct-2507 e o Qwen3-32B-Non-thinking, alcançando resultados quase idênticos aos do flagship Qwen3-235B-A22B-Instruct-2507
    • No RULER, o Qwen3-Next-80B-A3B-Instruct supera o Qwen3-30B-A3B-Instruct-2507, que tem mais camadas de atenção, em todos os comprimentos, e ultrapassa o Qwen3-235B-A22B-Instruct-2507, que tem mais camadas no total, dentro de um contexto de 256K, comprovando a força do design híbrido Gated DeltaNet + Gated Attention para tarefas de contexto longo
  • Desempenho do modelo Thinking: o Qwen3-Next-80B-A3B-Thinking supera modelos mais caros como Qwen3-30B-A3B-Thinking-2507 e Qwen3-32B-Thinking
    • Em vários benchmarks, ultrapassa o Gemini-2.5-Flash-Thinking de código fechado e se aproxima do mais recente modelo flagship Qwen3-235B-A22B-Thinking-2507 nos principais indicadores

Develop with Qwen3

  • Hugging Face Transformers: o código do Qwen3-Next foi incorporado ao branch principal do Hugging Face transformers
    • Versões anteriores podem gerar erros
    • Inclui um snippet de código que exemplifica o conteúdo gerado pelo modelo com base em uma entrada fornecida
    • Multi-token prediction (MTP) não está amplamente disponível no Hugging Face Transformers
    • Ganhos de eficiência ou throughput dependem fortemente da implementação
    • Para tarefas de inferência, recomenda-se adotar frameworks dedicados como SGLang e vLLM
    • Ao usar flash-linear-attention e causal-conv1d, é possível observar melhor eficiência dependendo da configuração de inferência
    • Para instruções detalhadas e requisitos, consulte os links correspondentes
    • Para deploy, use a versão mais recente do sglang ou vllm para criar endpoints de API compatíveis com OpenAI
  • SGLang é um framework de serving rápido para grandes modelos de linguagem e modelos visão-linguagem, capaz de iniciar um servidor com serviço de API compatível com OpenAI
    • O SGLang oferece suporte ao Qwen3-Next no branch principal e pode ser instalado a partir do código-fonte
    • É fornecido o comando para criar um endpoint de API em http://localhost:30000/v1 com comprimento máximo de contexto de 256K tokens usando tensor parallel em 4 GPUs
    • O comando recomendado para MTP é fornecido com o restante das configurações igual ao anterior
    • No momento, é necessária a variável de ambiente SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
    • O comprimento de contexto padrão é 256K, e se o servidor não iniciar, vale considerar reduzir para um valor menor, como 32768
  • vLLM é um motor de inferência e serving de alta vazão e eficiente em memória para LLMs, capaz de iniciar um servidor com serviço de API compatível com OpenAI
    • O vLLM oferece suporte ao Qwen3-Next no branch principal e pode ser instalado a partir do código-fonte
    • É fornecido o comando para criar um endpoint de API em http://localhost:8000/v1 com comprimento máximo de contexto de 256K tokens usando tensor parallel em 4 GPUs
    • O comando recomendado para MTP é fornecido com o restante das configurações igual ao anterior
    • No momento, é necessária a variável de ambiente VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
    • O comprimento de contexto padrão é 256K, e se o servidor não iniciar, vale considerar reduzir para um valor menor, como 32768
  • Uso agentic: o Qwen3 se destaca em capacidade de tool calling, e é recomendado usar o Qwen-Agent para aproveitar ao máximo as capacidades de agente do Qwen3
    • O Qwen-Agent encapsula internamente templates e parsers de tool calling, reduzindo bastante a complexidade de codificação
    • É possível usar arquivos de configuração MCP para definir ferramentas disponíveis, usar as ferramentas integradas do Qwen-Agent ou empregar ferramentas integradas próprias
  • Processamento de texto ultralongo: o Qwen3-Next oferece suporte nativo a comprimento de contexto de até 262.144 tokens
    • Para conversas cujo comprimento total, incluindo entrada e saída, ultrapasse significativamente esse limite, recomenda-se usar técnicas de escalonamento de RoPE como YaRN para processar textos longos com eficiência
    • O desempenho do modelo foi validado com comprimento de contexto de até 1 milhão de tokens usando YaRN
    • O YaRN é atualmente suportado em vários frameworks de inferência, como transformers, vllm e sglang
    • As duas formas de ativar o YaRN nos frameworks compatíveis são modificar o arquivo do modelo ou passar argumentos pela linha de comando
    • Adicionar o campo rope_scaling no arquivo config.json
    • No caso do vllm, usar argumentos de linha de comando
    • No caso do sglang, usar argumentos de linha de comando
    • Todos os frameworks open source relevantes implementam YaRN estático, mantendo o fator de escala constante independentemente do comprimento da entrada, o que pode impactar potencialmente o desempenho em textos curtos
    • Recomenda-se adicionar a configuração rope_scaling apenas quando houver necessidade de processamento de contexto longo
    • Também é recomendado ajustar o factor conforme a necessidade; por exemplo, se o comprimento de contexto típico da aplicação for 524.288 tokens, definir factor como 2.0

Resumo

  • O Qwen3-Next representa um grande salto na arquitetura de modelos, introduzindo inovações no mecanismo de atenção, incluindo atenção linear e attention gate, além de maior esparsidade no design MoE
  • O Qwen3-Next-80B-A3B oferece desempenho equivalente ao do maior Qwen3-235B-A22B-2507 tanto nos modos thinking quanto non-thinking, ao mesmo tempo em que entrega inferência significativamente mais rápida em cenários de contexto longo
  • Com este lançamento, busca-se fortalecer a comunidade open source com avanços arquiteturais de ponta e evoluir junto com o desenvolvimento das arquiteturas mais avançadas

Ainda não há comentários.

Ainda não há comentários.