Qwen3 - o modelo de linguagem de próxima geração que pensa mais profundamente e age mais rápido

(qwenlm.github.io)

8 pontos por GN⁺ 2025-04-29 | 2 comentários | Compartilhar no WhatsApp

Qwen3 é o mais recente grande modelo de linguagem, com até 235B de parâmetros, e apresenta desempenho em nível competitivo com DeepSeek-R1, Grok-3 e Gemini-2.5-Pro
Suporta modo de raciocínio híbrido (Thinking/Non-Thinking), permitindo ajustar a profundidade da inferência conforme a dificuldade do problema
Suporta 119 idiomas e dialetos, ampliando significativamente sua aplicabilidade global
Foi pré-treinado com 36 trilhões de tokens de dados, o dobro da geração anterior, melhorando suas capacidades em programação, matemática e raciocínio lógico
Foi lançado como open source sob a licença Apache 2.0 e pode ser usado imediatamente em Hugging Face, ModelScope e Kaggle

Introdução

Qwen3 é o mais recente grande modelo de linguagem da série Qwen, e o principal modelo flagship é o Qwen3-235B-A22B, com 235B de parâmetros
O pequeno modelo MoE Qwen3-30B-A3B apresenta desempenho superior ao QwQ-32B, que ativa 10 vezes mais parâmetros
Foram lançados sob a licença Apache 2.0 6 modelos Dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) e 2 modelos MoE (30B, 235B)

Principais características

Modo de raciocínio híbrido
- Modo Thinking: realiza raciocínio passo a passo para problemas complexos
- Modo Non-Thinking: fornece respostas imediatas para problemas simples que exigem rapidez
- É possível ajustar o orçamento de inferência conforme a tarefa para otimizar custo-benefício e qualidade
Suporte multilíngue
- O suporte a 119 idiomas e dialetos fortalece a possibilidade de expansão para aplicações globais
- Principais famílias de idiomas suportadas: indo-europeia, sino-tibetana, afro-asiática, austronésia, dravídica etc.
Recursos de agente aprimorados
- Capacidades de programação e de agente otimizadas
- Integrado ao Qwen-Agent, pode maximizar a capacidade de chamadas de ferramentas

Pré-treinamento

O pré-treinamento foi realizado com 36 trilhões de tokens, o dobro em relação ao Qwen2.5
Foram coletados dados da web e documentos semelhantes a PDF para compor diversos conjuntos de dados de alta qualidade
Os dados nas áreas de STEM, programação e matemática foram reforçados para alcançar melhoria geral na capacidade de raciocínio

Pós-treinamento

Foi aplicado um pipeline de 4 etapas (início com CoT → aprendizado por reforço → fusão dos modos de raciocínio → aprendizado por reforço geral)
O modelo foi otimizado para realizar ao mesmo tempo raciocínio lógico e respostas rápidas
O aprendizado por reforço em mais de 20 tarefas de domínio geral reforçou a generalização e a estabilidade

Desenvolvendo com Qwen3

Suporta vários frameworks, como Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio e llama.cpp
O modo Thinking pode ser ativado/desativado facilmente no código, e também é possível alterná-lo durante a conversa com os comandos /think e /no_think

Como usar agentes

Com o Qwen-Agent, é possível construir sistemas de agentes complexos usando arquivos de configuração MCP ou ferramentas embutidas
Também é possível construir diretamente um servidor compatível com a API da OpenAI para implantação local ou pública

Trabalhos futuros

Qwen3 representa um marco importante rumo à inteligência artificial geral (AGI) e à superinteligência artificial (ASI), alcançando níveis mais altos de inteligência ao expandir o pré-treinamento e o aprendizado por reforço
O objetivo é melhorar a arquitetura do modelo e a metodologia de treinamento, avançando em expansão de dados, aumento do tamanho do modelo, ampliação do comprimento de contexto, expansão de modalidades e raciocínio de longo prazo por meio de feedback do ambiente
Está em curso a transição de uma era centrada no treinamento de modelos para uma era centrada no treinamento de agentes, e a próxima versão trará avanços significativos para o trabalho e a vida de todos

2 comentários

iwanhae 2025-04-29

Os modelos grandes também são interessantes, mas o lado dos modelos pequenos é ainda mais interessante.
Parece que o modelo de 0,6B entrega algo próximo do desempenho de 7B de vários outros modelos.

GN⁺ 2025-04-29

Opiniões do Hacker News

Apresentei um problema de física para LLMs, e era uma questão difícil até para humanos. GPT o3, Claude 3.7 e Gemini 2.5 Pro não acertaram a resposta de primeira. O Qwen3 errou ainda mais.
A documentação é bem feita, com suporte às principais stacks de inferência disponível desde o primeiro dia. Há várias opções de tamanho. Já existe experiência de trabalho com a comunidade de criadores de quantização.
Ainda não testei o desempenho, mas só a atenção aos detalhes ao redor já faz deste um excelente lançamento. Em comparação com o Llama 4 da Meta, é o tipo de padrão que deveria ser seguido.
Os resultados de benchmark são tão bons que chega a ser difícil acreditar. O modelo 30B compete com o Gemini 2.5 Pro e é muito melhor que o Gemma 27B.
Estão surgindo vários modelos open weight, e fico me perguntando se existe alguma forma de descobrir qual deles roda a uma velocidade razoável em uma GPU de desktop padrão. Uso uma Quadro RTX 4000 e não sei qual dos vários tamanhos de modelo seria rápido.
É possível que os modelos Qwen e DeepSeek tenham sido treinados de acordo com a visão de mundo do PCC, mas na prática isso não causou problemas. Não há muita pesquisa sobre isso.
O Qwen-30B-A3B é o que mais me anima. Parece adequado como assistente de programação offline/local. Até agora, os modelos open weight ou tinham desempenho fraco ou eram lentos demais.
Estou procurando insights sobre a melhor forma de comparar modelos de raciocínio. Recomenda-se temperatura alta para respostas criativas e temperatura baixa para saídas lógicas e determinísticas. Mas não tenho certeza se isso se aplica a modelos de raciocínio.
É interessante que um LLM de 0.6B tenha uma janela de contexto de 32k. Pode ser um modelo base divertido para fine-tuning. É o mais baixado e curtido no Hugging Face.
Esses modelos parecem pensar bastante. Os benchmarks foram executados com um orçamento de pensamento de 32k tokens. O A3B em especial supera o QWQ e pode ser útil para inferência em CPU.
Os números de desempenho são muito impressionantes. O MoE supera o o1 com 3B de parâmetros ativos. Os modelos locais estão ficando bons o suficiente para dar conta da maioria das tarefas.