3 pontos por GN⁺ 2025-09-13 | 1 comentários | Compartilhar no WhatsApp
  • O Qwen3-Next é uma nova arquitetura de modelo desenvolvida para dar suporte às tendências futuras dos modelos de grande escala: expansão do comprimento de contexto e aumento do total de parâmetros, oferecendo recursos para maximizar a eficiência de treinamento e inferência
  • Introduz um mecanismo de atenção híbrido e uma estrutura MoE altamente esparsa para melhorar o desempenho em contextos longos e configurações com grande número de parâmetros
  • Otimização da estabilidade de treinamento e mecanismo de previsão de múltiplos tokens aceleram a velocidade de inferência
  • O modelo Qwen3-Next-80B-A3B-Base atinge desempenho equivalente ou superior ao Qwen3-32B, reduzindo o custo de treinamento para menos de 10%
  • O lançamento deste modelo oferece à comunidade open source avanços arquiteturais de ponta e estabelece a base para ganhos de inteligência e produtividade que levarão ao desenvolvimento do Qwen3.5

Introdução

  • Com a convicção de que as principais tendências futuras dos modelos de grande escala são a expansão do comprimento de contexto e o aumento do total de parâmetros, foi projetada uma nova arquitetura chamada Qwen3-Next para elevar a eficiência de treinamento e inferência em cenários de contexto longo e grande quantidade de parâmetros
  • Em comparação com a estrutura MoE do Qwen3, foram introduzidas várias melhorias centrais, como mecanismo de atenção híbrido, estrutura MoE altamente esparsa, otimização da estabilidade de treinamento e um mecanismo de previsão de múltiplos tokens para inferência mais rápida
  • Com base nessa arquitetura, foi treinado o modelo Qwen3-Next-80B-A3B-Base, um modelo de 80 bilhões de parâmetros que ativa apenas 3 bilhões durante a inferência
  • Esse modelo base alcança desempenho equivalente ou levemente superior ao modelo denso Qwen3-32B, usando menos de 10% do custo de treinamento (tempo de GPU)
  • Em especial, oferece mais de 10 vezes mais throughput em comprimentos de contexto acima de 32K tokens, alcançando eficiência extrema em treinamento e inferência
  • Com base no Qwen3-Next-80B-A3B-Base, foram desenvolvidas e lançadas duas versões pós-treinadas: Qwen3-Next-80B-A3B-Instruct e Qwen3-Next-80B-A3B-Thinking
  • A arquitetura híbrida de atenção e MoE altamente esparsa resolve antigos problemas de estabilidade e eficiência no treinamento com aprendizado por reforço (RL), melhorando tanto a velocidade de treinamento em RL quanto o desempenho final
  • O Qwen3-Next-80B-A3B-Instruct apresenta desempenho equivalente ao modelo flagship Qwen3-235B-A22B-Instruct-2507, com vantagem clara em tarefas de contexto ultralongo de até 256K tokens
  • O Qwen3-Next-80B-A3B-Thinking se destaca em tarefas complexas de raciocínio, supera modelos mais caros como Qwen3-30B-A3B-Thinking-2507 e Qwen3-32B-Thinking, ultrapassa o Gemini-2.5-Flash-Thinking de código fechado em vários benchmarks e se aproxima do desempenho do modelo topo de linha Qwen3-235B-A22B-Thinking-2507
  • O Qwen3-Next já foi lançado no Hugging Face e no ModelScope, e qualquer pessoa pode usar os serviços do Qwen3-Next via Alibaba Cloud Model Studio e NVIDIA API Catalog

Principais recursos

  • Arquitetura híbrida: Gated DeltaNet + Gated Attention aproveita o fato de que a atenção linear rompe a complexidade quadrática da atenção padrão e é mais eficiente em contextos longos
    • Foi observado que a atenção linear é rápida, mas tem recall fraco, enquanto a atenção padrão é cara e lenta; por meio de experimentos sistemáticos, confirmou-se que o Gated DeltaNet oferece capacidade de aprendizado in-context mais forte do que métodos comuns como Sliding Window Attention ou Mamba2
    • Ao combinar Gated DeltaNet com atenção padrão na proporção de 3:1 (75% das camadas usam Gated DeltaNet e 25% mantêm atenção padrão), foi obtido desempenho e eficiência consistentemente superiores aos de arquiteturas únicas
    • Nas camadas de atenção padrão, foi adotado um mecanismo de gating na saída para reduzir o problema de baixa rank da atenção, e a dimensão por attention head foi aumentada de 128 para 256
    • O rotary positional encoding é aplicado apenas aos primeiros 25% da dimensão posicional para melhorar a extrapolação para sequências mais longas
  • MoE ultraesparso: apenas 3,7% dos parâmetros ativados; o Qwen3-Next adota um design MoE altamente esparso que ativa cerca de 3B dos 80B parâmetros totais por etapa de inferência
    • Experimentos mostram que, ao fixar os especialistas ativados por meio de balanceamento global de carga, a perda de treinamento cai de forma constante à medida que o total de parâmetros de especialistas aumenta
    • Em comparação com o MoE do Qwen3 (128 especialistas no total, 8 roteados), o Qwen3-Next expande para 512 especialistas no total e combina 10 especialistas roteados + 1 especialista compartilhado para maximizar o uso de recursos sem degradar o desempenho
  • Design voltado à estabilidade de treinamento: o mecanismo de gating na saída da atenção elimina problemas como Attention Sink e Massive Activation, garantindo estabilidade numérica em todo o modelo
    • Foi identificado no QK-Norm usado no Qwen3 um problema em que alguns pesos de layer norm cresciam de forma anormal; por isso, o Qwen3-Next adota Zero-Centered RMSNorm e aplica weight decay aos pesos de normalização para evitar crescimento infinito
    • Os parâmetros do roteador MoE são normalizados durante a inicialização para que cada especialista seja selecionado sem viés no início do treinamento, reduzindo o ruído causado pela inicialização aleatória
    • Esse design centrado em estabilidade torna experimentos de pequena escala mais confiáveis e permite executar treinamento em grande escala com mais fluidez
  • Previsão de múltiplos tokens: o Qwen3-Next introduz um mecanismo nativo de multi-token prediction (MTP), que não apenas gera módulos MTP com alta taxa de aceitação para speculative decoding, mas também melhora o desempenho geral
    • O Qwen3-Next otimiza especialmente o desempenho de inferência em múltiplas etapas do MTP e, por meio de treinamento multiestágio que mantém consistência entre treinamento e inferência, melhora ainda mais a taxa de aceitação do speculative decoding em cenários reais

Pré-treinamento

  • Eficiência de pré-treinamento e velocidade de inferência: o Qwen3-Next foi treinado em um subconjunto uniformemente amostrado (15T tokens) do corpus de pré-treinamento de 36T tokens do Qwen3
    • Usa menos de 80% do tempo de GPU necessário para o Qwen3-30A-3B e consome apenas 9,3% do custo computacional do Qwen3-32B, alcançando desempenho melhor e demonstrando excelente eficiência de treinamento e custo-benefício
    • Graças à arquitetura híbrida, também se destaca na inferência, oferecendo quase 7 vezes mais throughput do que o Qwen3-32B na fase de prefill com comprimento de contexto de 4K
    • Acima de 32K, é mais de 10 vezes mais rápido
    • Na etapa de decode, apresenta quase 4 vezes mais throughput em contexto de 4K e mantém vantagem de velocidade superior a 10 vezes acima de 32K
  • Desempenho do modelo base: o Qwen3-Next-80B-A3B-Base ativa apenas 1/10 dos parâmetros não embedding do Qwen3-32B-Base e ainda o supera na maioria dos benchmarks, além de ficar muito à frente do Qwen3-30B-A3B, comprovando eficiência excepcional e desempenho robusto

Pós-treinamento

  • Desempenho do modelo Instruct: o Qwen3-Next-80B-A3B-Instruct supera amplamente o Qwen3-30B-A3B-Instruct-2507 e o Qwen3-32B-Non-thinking, alcançando resultados quase idênticos aos do flagship Qwen3-235B-A22B-Instruct-2507
    • No RULER, o Qwen3-Next-80B-A3B-Instruct supera o Qwen3-30B-A3B-Instruct-2507, que tem mais camadas de atenção, em todos os comprimentos, e ultrapassa o Qwen3-235B-A22B-Instruct-2507, que tem mais camadas no total, dentro de um contexto de 256K, comprovando a força do design híbrido Gated DeltaNet + Gated Attention para tarefas de contexto longo
  • Desempenho do modelo Thinking: o Qwen3-Next-80B-A3B-Thinking supera modelos mais caros como Qwen3-30B-A3B-Thinking-2507 e Qwen3-32B-Thinking
    • Em vários benchmarks, ultrapassa o Gemini-2.5-Flash-Thinking de código fechado e se aproxima do mais recente modelo flagship Qwen3-235B-A22B-Thinking-2507 nos principais indicadores

Develop with Qwen3

  • Hugging Face Transformers: o código do Qwen3-Next foi incorporado ao branch principal do Hugging Face transformers
    • Versões anteriores podem gerar erros
    • Inclui um snippet de código que exemplifica o conteúdo gerado pelo modelo com base em uma entrada fornecida
    • Multi-token prediction (MTP) não está amplamente disponível no Hugging Face Transformers
    • Ganhos de eficiência ou throughput dependem fortemente da implementação
    • Para tarefas de inferência, recomenda-se adotar frameworks dedicados como SGLang e vLLM
    • Ao usar flash-linear-attention e causal-conv1d, é possível observar melhor eficiência dependendo da configuração de inferência
    • Para instruções detalhadas e requisitos, consulte os links correspondentes
    • Para deploy, use a versão mais recente do sglang ou vllm para criar endpoints de API compatíveis com OpenAI
  • SGLang é um framework de serving rápido para grandes modelos de linguagem e modelos visão-linguagem, capaz de iniciar um servidor com serviço de API compatível com OpenAI
    • O SGLang oferece suporte ao Qwen3-Next no branch principal e pode ser instalado a partir do código-fonte
    • É fornecido o comando para criar um endpoint de API em http://localhost:30000/v1 com comprimento máximo de contexto de 256K tokens usando tensor parallel em 4 GPUs
    • O comando recomendado para MTP é fornecido com o restante das configurações igual ao anterior
    • No momento, é necessária a variável de ambiente SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
    • O comprimento de contexto padrão é 256K, e se o servidor não iniciar, vale considerar reduzir para um valor menor, como 32768
  • vLLM é um motor de inferência e serving de alta vazão e eficiente em memória para LLMs, capaz de iniciar um servidor com serviço de API compatível com OpenAI
    • O vLLM oferece suporte ao Qwen3-Next no branch principal e pode ser instalado a partir do código-fonte
    • É fornecido o comando para criar um endpoint de API em http://localhost:8000/v1 com comprimento máximo de contexto de 256K tokens usando tensor parallel em 4 GPUs
    • O comando recomendado para MTP é fornecido com o restante das configurações igual ao anterior
    • No momento, é necessária a variável de ambiente VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
    • O comprimento de contexto padrão é 256K, e se o servidor não iniciar, vale considerar reduzir para um valor menor, como 32768
  • Uso agentic: o Qwen3 se destaca em capacidade de tool calling, e é recomendado usar o Qwen-Agent para aproveitar ao máximo as capacidades de agente do Qwen3
    • O Qwen-Agent encapsula internamente templates e parsers de tool calling, reduzindo bastante a complexidade de codificação
    • É possível usar arquivos de configuração MCP para definir ferramentas disponíveis, usar as ferramentas integradas do Qwen-Agent ou empregar ferramentas integradas próprias
  • Processamento de texto ultralongo: o Qwen3-Next oferece suporte nativo a comprimento de contexto de até 262.144 tokens
    • Para conversas cujo comprimento total, incluindo entrada e saída, ultrapasse significativamente esse limite, recomenda-se usar técnicas de escalonamento de RoPE como YaRN para processar textos longos com eficiência
    • O desempenho do modelo foi validado com comprimento de contexto de até 1 milhão de tokens usando YaRN
    • O YaRN é atualmente suportado em vários frameworks de inferência, como transformers, vllm e sglang
    • As duas formas de ativar o YaRN nos frameworks compatíveis são modificar o arquivo do modelo ou passar argumentos pela linha de comando
    • Adicionar o campo rope_scaling no arquivo config.json
    • No caso do vllm, usar argumentos de linha de comando
    • No caso do sglang, usar argumentos de linha de comando
    • Todos os frameworks open source relevantes implementam YaRN estático, mantendo o fator de escala constante independentemente do comprimento da entrada, o que pode impactar potencialmente o desempenho em textos curtos
    • Recomenda-se adicionar a configuração rope_scaling apenas quando houver necessidade de processamento de contexto longo
    • Também é recomendado ajustar o factor conforme a necessidade; por exemplo, se o comprimento de contexto típico da aplicação for 524.288 tokens, definir factor como 2.0

Resumo

  • O Qwen3-Next representa um grande salto na arquitetura de modelos, introduzindo inovações no mecanismo de atenção, incluindo atenção linear e attention gate, além de maior esparsidade no design MoE
  • O Qwen3-Next-80B-A3B oferece desempenho equivalente ao do maior Qwen3-235B-A22B-2507 tanto nos modos thinking quanto non-thinking, ao mesmo tempo em que entrega inferência significativamente mais rápida em cenários de contexto longo
  • Com este lançamento, busca-se fortalecer a comunidade open source com avanços arquiteturais de ponta e evoluir junto com o desenvolvimento das arquiteturas mais avançadas

1 comentários

 
GN⁺ 2025-09-13
Comentários no Hacker News
  • A parte mais legal do Qwen3-Next é que, ao introduzir MTP (Multi-Token Prediction) depois da linear attention, ele não adiciona uma un-embedding matrix extra. O Deepseek R1 também aplica MTP na 61ª camada, mas adiciona tensores grandes como embed_tokens e shared_head.head (cerca de 2 GB em FP8), então o Qwen3-Next consegue fazer MTP com muito menos parâmetros ativos e economiza memória na casa dos GB. Graças a isso, a velocidade de inferência aumenta bastante.
    • Tenho curiosidade sobre quais vantagens reais o MTP traz na etapa de inferência; queria saber se isso está ligado apenas à eficiência no pretraining.
    • Queria entender qual é a diferença entre MTP e Medusa heads, e se este modelo suporta speculative decoding de forma “nativa”. Se eu rodar esse modelo no vllm, ele já aproveita o MTP e eu passo a ter imediatamente os benefícios do speculative decoding?
    • Se alguém tiver algum material que explique todos esses termos de forma fácil de entender de uma vez só, seria ótimo.
  • A Alibaba está realmente lançando modelos impressionantes sem parar. Testei o Qwen3-Next-80B-A3B no Qwen Chat e ele é muito rápido, e em qualidade parece parecido com o Qwen3-235B-A22B. É impressionante como conseguiram isso. Também estou esperando os benchmarks aparecerem no Artificial Analysis. Segundo o Qwen Chat, os limites do Qwen3-Next são context length máxima de 262.144 tokens e geração de resumo máxima de 32.768 tokens. Em relação ao Qwen3-235B-A22B, isso significa o dobro de contexto e 4x mais capacidade de resumo. O ponto forte é entender contextos longos e lidar com tarefas complexas. Mesmo assim, vou continuar usando o Qwen2.5-Turbo. É um dos poucos modelos com suporte a contexto de 1M de tokens, então se adapta melhor ao meu uso de subir PDFs grandes e fazer perguntas entre capítulos.
    • Mesmo quando os modelos frontier dizem suportar contextos longos, na prática parece que a precisão cai muito conforme o contexto cresce. Mesmo que digam suportar 10M de contexto, a realidade é que, ao preencher tudo, eles não funcionam direito. Queria ouvir a opinião dos outros.
    • Pelo model card, o Qwen3-Next também pode ser estendido até 1M de context length usando YaRN. Segundo o texto oficial, o Qwen3-Next suporta por padrão até 262.144 tokens de contexto e, quando a soma de tokens de entrada + saída ultrapassa bastante isso, foi validado para processar até 1M de tokens com métodos como RoPE scaling ou YaRN fonte.
    • Os modelos proprietários da Alibaba também são muito bons e curiosamente pouco conhecidos. Quase não aparecem em benchmarks. O Qwen3-coder-plus é muito melhor que o qwen3 open source, e o Qwen3 max está em nível de competir com modelos SOTA.
    • Queria saber como você prepara os dados em PDF antes de colocá-los no Qwen.
  • Pedi por linha de comando ao Qwen3-Next-80B-A3B-Thinking um “ASCII do spongebob” e ele gerou só uma forma bem básica. Com o Qwen3-Coder-480B-A35B-Instruct, saiu um ASCII do Bob Esponja muito mais caprichado. Quando testei várias vezes à noite, muitos ASCIIs no Qwen3-coder saíam sem a parte das pernas ou mal finalizados, mas de manhã, com o mesmo prompt, veio perfeito de primeira. Fiquei curioso se ocupação ou estado dos recursos (servidor, API) afeta a qualidade da resposta, ou se é puramente questão de sorte. Tentei de novo alguns minutos depois e falhou, então provavelmente acontece 1 vez em 10, e no Qwen3-next quase nunca sai.
    • Parece que o modelo memorizou inteiramente o ASCII do SpongeBob.
    • Acho que existe algum tipo de destilação ou compartilhamento de dados de treino entre Kimi K2 e Qwen Coder (ou algum outro modelo relacionado). Já usei a maioria dos LLMs, mas só no Kimi K2 saiu exatamente o mesmo ASCII do Qwen3-coder. O ASCII do SpongeBob também é gerado de forma exatamente idêntica no Kimi K2.
    • O teste do ASCII do SpongeBob foi tirado das redes sociais oficiais da Qwen e é basicamente uma probe para medir memorização injetada (rote memorization). Um modelo dense grande pode simplesmente decorar tudo pela capacidade dos parâmetros, mas na estrutura sparse-MoE do Qwen3 entram vários ruídos, como seleção de experts e token sampling, então o alignment detalhado do desenho tende a quebrar com mais facilidade. Além disso, ainda foram adicionadas estruturas novas como gated-attention e multi-token head, então basta um roteamento azarado de expert para a disposição do desenho sair errada. E o Qwen3-coder foi treinado especificamente para isso, o que torna a comparação injusta. Também comparei os resultados ASCII de outros modelos da linha Qwen3. Eles saem bem diferentes entre si.
  • É impressionante ver o quanto o MoE evoluiu graças ao Qwen. O Qwen3-Next supera com folga o antigo modelo dense de 72B e, fazendo bom offload de VRAM e CPU, roda até mais rápido que um modelo de 14B. Esse nível de eficiência é realmente notável.
    • Não é o Qwen que está impulsionando o avanço dos LLMs; os LLMs SOTA já são MoE desde o GPT-4. É uma pena que o HN esteja tão atrasado nas tendências e que isso resulte em comentários inúteis sobre IA.
    • Olhando em retrospecto, até fica engraçado pensar no quanto a Meta gastou no ano passado para treinar um modelo dense de 405B. O modelo é enorme e, na prática, rende menos que modelos com 1/10 do tamanho, além de não rodar em velocidade utilizável em nenhum hardware realista.
  • Adicionei o Qwen3 Next ao round aberto do Brokk Power Ranking (benchmark de programação). Em desempenho, ele fica parecido com o GPT-OSS-20b. Os resultados completos dos modelos open source podem ser vistos aqui.
    • Seria um benchmark ainda mais útil se incluísse várias linguagens. Hoje ele avalia só Java, mas no dia a dia eu uso principalmente outras linguagens, então o resultado do benchmark não bate com a minha experiência real.
    • Queria saber se o Kimi K2 listado é a versão mais recente ou uma versão antiga do Kimi K2.
  • A Oracle prevê que a demanda por data centers vai disparar nesta semana e as ações estão subindo. Se essa melhora de 10x na eficiência dos LLMs for real, talvez a demanda por Nvidia, Oracle, Coreweave etc. diminua.
    • Acho que vale considerar fenômenos econômicos como o paradoxo de Jevons.
    • Independentemente da projeção da Oracle, não acho que ganhos de eficiência levem imediatamente à queda de demanda. Como no paradoxo de Jevons, mais eficiência pode até fazer o uso aumentar.
    • Disseram a mesma coisa sobre o deepseek-r1, mas a realidade não mudou. Se alguém deixar os modelos 10x mais eficientes, todo mundo simplesmente vai tentar treinar modelos 10x maiores. Ninguém vai parar e dizer “esse tamanho já basta”, desde que scaling continue impactando o desempenho.
    • Absolutamente não. O comportamento do mercado mostra que as pessoas sempre estão dispostas a pagar pela melhor qualidade, e o preço em geral continua o mesmo. Quando sai um modelo novo, os antigos de qualidade inferior (mais baratos) são abandonados na hora, e todo mundo só quer o modelo melhor pelo mesmo preço. Desta vez deve acontecer algo parecido.
    • Se a bolha da IA estourar e sobrarem data centers e GPUs, fico curioso sobre como alguém poderia lucrar com isso do ponto de vista de investimento.
  • Se você tem curiosidade sobre Gated Delta Network, veja este artigo link do arxiv.
    • O artigo sobre Gated Attention pode ser consultado aqui.
  • O Qwen3-Next é bem impressionante, e acho que arquiteturas melhores é que vão impulsionar as próximas inovações. Não parece que seja obrigatório ter mais de 100B de parâmetros, como no GPT OSS 120B.
    • Com certeza, mais parâmetros é melhor. Modelos com poucos parâmetros alucinam bastante. Ainda assim, talvez funcione bem se os parâmetros ativos forem poucos e o routing for bom.
    • A nova arquitetura é muito legal, e é curioso vê-la ser aberta imediatamente. Mas os modelos da linha Qwen tendem a sofrer bastante com overfitting. Muitas vezes vão bem só em tarefas específicas e têm limitações de generalização em relação aos modelos fechados. Não sei se é apenas questão de escala ou se a diferença também está na receita/método de treino. Quando testados em OOD (out-of-distribution), o valor cai rápido, enquanto os modelos fechados ainda mostram vantagem.
  • Previsão: nos próximos 4 anos, a IA ficará disponível como uma commodity de uso fácil por qualquer pessoa, em um nível 15 pontos de QI acima dos modelos SOTA atuais (com contextos muito mais longos também). Quando as melhorias em treino com synthetic data chegarem ao limite (depois que os “dados reais” já tiverem sido esgotados), os modelos open source serão treinados de forma barata usando saídas de modelos de grande capital. Depois disso, o progresso da IA vai estagnar até surgir uma forma de treinar inteligência geral com reinforcement learning competitivo (como o AlphaGo foi treinado). Quando esse método aparecer, não será mais necessário um volume gigantesco de dados de treino, e aí sim surgirá uma AGI real.
    • Não entendo essa ideia de que os “dados reais” acabaram. Todos os dias surgem novos conhecimentos, artigos científicos e vídeos na internet; então como os dados poderiam se esgotar?
    • Se os modelos de ponta atuais estiverem no nível de 120 de QI humano (não sei se é exato, mas supondo com base nisto aqui), então no futuro teremos uma grande quantidade de bots superimersivos no nível de 135 de QI. É difícil até imaginar o que isso realmente significaria.
  • Embora seja um modelo de 80B, ultimamente tenho prestado mais atenção em modelos de 32B ou menos que rodem confortavelmente em um MacBook Pro (M4, 64GB). Uso o ollama todos os dias para filtragem de spam; o gemma3:27b é excelente e o gpt-oss:20b é rápido, então uso bastante.
    • Seria legal se você explicasse em mais detalhes como está usando o Ollama para filtragem de spam.
    • O modelo tem 80B de parâmetros no total, mas só uns 3B ficam ativos na inferência. Estou rodando bem o antigo Qwen3 30B 2507 até numa placa Nvidia de 8GB.
    • Como é uma estrutura MoE, deve rodar muito bem.