- Qwen3 é o mais recente grande modelo de linguagem, com até 235B de parâmetros, e apresenta desempenho em nível competitivo com DeepSeek-R1, Grok-3 e Gemini-2.5-Pro
- Suporta modo de raciocínio híbrido (Thinking/Non-Thinking), permitindo ajustar a profundidade da inferência conforme a dificuldade do problema
- Suporta 119 idiomas e dialetos, ampliando significativamente sua aplicabilidade global
- Foi pré-treinado com 36 trilhões de tokens de dados, o dobro da geração anterior, melhorando suas capacidades em programação, matemática e raciocínio lógico
- Foi lançado como open source sob a licença Apache 2.0 e pode ser usado imediatamente em Hugging Face, ModelScope e Kaggle
Introdução
- Qwen3 é o mais recente grande modelo de linguagem da série Qwen, e o principal modelo flagship é o Qwen3-235B-A22B, com 235B de parâmetros
- O pequeno modelo MoE Qwen3-30B-A3B apresenta desempenho superior ao QwQ-32B, que ativa 10 vezes mais parâmetros
- Foram lançados sob a licença Apache 2.0 6 modelos Dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) e 2 modelos MoE (30B, 235B)
Principais características
-
Modo de raciocínio híbrido
- Modo Thinking: realiza raciocínio passo a passo para problemas complexos
- Modo Non-Thinking: fornece respostas imediatas para problemas simples que exigem rapidez
- É possível ajustar o orçamento de inferência conforme a tarefa para otimizar custo-benefício e qualidade
-
Suporte multilíngue
- O suporte a 119 idiomas e dialetos fortalece a possibilidade de expansão para aplicações globais
- Principais famílias de idiomas suportadas: indo-europeia, sino-tibetana, afro-asiática, austronésia, dravídica etc.
-
Recursos de agente aprimorados
- Capacidades de programação e de agente otimizadas
- Integrado ao Qwen-Agent, pode maximizar a capacidade de chamadas de ferramentas
Pré-treinamento
- O pré-treinamento foi realizado com 36 trilhões de tokens, o dobro em relação ao Qwen2.5
- Foram coletados dados da web e documentos semelhantes a PDF para compor diversos conjuntos de dados de alta qualidade
- Os dados nas áreas de STEM, programação e matemática foram reforçados para alcançar melhoria geral na capacidade de raciocínio
Pós-treinamento
- Foi aplicado um pipeline de 4 etapas (início com CoT → aprendizado por reforço → fusão dos modos de raciocínio → aprendizado por reforço geral)
- O modelo foi otimizado para realizar ao mesmo tempo raciocínio lógico e respostas rápidas
- O aprendizado por reforço em mais de 20 tarefas de domínio geral reforçou a generalização e a estabilidade
Desenvolvendo com Qwen3
- Suporta vários frameworks, como Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio e llama.cpp
- O modo Thinking pode ser ativado/desativado facilmente no código, e também é possível alterná-lo durante a conversa com os comandos
/think e /no_think
Como usar agentes
- Com o Qwen-Agent, é possível construir sistemas de agentes complexos usando arquivos de configuração MCP ou ferramentas embutidas
- Também é possível construir diretamente um servidor compatível com a API da OpenAI para implantação local ou pública
Trabalhos futuros
- Qwen3 representa um marco importante rumo à inteligência artificial geral (AGI) e à superinteligência artificial (ASI), alcançando níveis mais altos de inteligência ao expandir o pré-treinamento e o aprendizado por reforço
- O objetivo é melhorar a arquitetura do modelo e a metodologia de treinamento, avançando em expansão de dados, aumento do tamanho do modelo, ampliação do comprimento de contexto, expansão de modalidades e raciocínio de longo prazo por meio de feedback do ambiente
- Está em curso a transição de uma era centrada no treinamento de modelos para uma era centrada no treinamento de agentes, e a próxima versão trará avanços significativos para o trabalho e a vida de todos
2 comentários
Os modelos grandes também são interessantes, mas o lado dos modelos pequenos é ainda mais interessante.
Parece que o modelo de 0,6B entrega algo próximo do desempenho de 7B de vários outros modelos.
Opiniões do Hacker News
Apresentei um problema de física para LLMs, e era uma questão difícil até para humanos. GPT o3, Claude 3.7 e Gemini 2.5 Pro não acertaram a resposta de primeira. O Qwen3 errou ainda mais.
A documentação é bem feita, com suporte às principais stacks de inferência disponível desde o primeiro dia. Há várias opções de tamanho. Já existe experiência de trabalho com a comunidade de criadores de quantização.
Ainda não testei o desempenho, mas só a atenção aos detalhes ao redor já faz deste um excelente lançamento. Em comparação com o Llama 4 da Meta, é o tipo de padrão que deveria ser seguido.
Os resultados de benchmark são tão bons que chega a ser difícil acreditar. O modelo 30B compete com o Gemini 2.5 Pro e é muito melhor que o Gemma 27B.
Estão surgindo vários modelos open weight, e fico me perguntando se existe alguma forma de descobrir qual deles roda a uma velocidade razoável em uma GPU de desktop padrão. Uso uma Quadro RTX 4000 e não sei qual dos vários tamanhos de modelo seria rápido.
É possível que os modelos Qwen e DeepSeek tenham sido treinados de acordo com a visão de mundo do PCC, mas na prática isso não causou problemas. Não há muita pesquisa sobre isso.
O Qwen-30B-A3B é o que mais me anima. Parece adequado como assistente de programação offline/local. Até agora, os modelos open weight ou tinham desempenho fraco ou eram lentos demais.
Estou procurando insights sobre a melhor forma de comparar modelos de raciocínio. Recomenda-se temperatura alta para respostas criativas e temperatura baixa para saídas lógicas e determinísticas. Mas não tenho certeza se isso se aplica a modelos de raciocínio.
É interessante que um LLM de 0.6B tenha uma janela de contexto de 32k. Pode ser um modelo base divertido para fine-tuning. É o mais baixado e curtido no Hugging Face.
Esses modelos parecem pensar bastante. Os benchmarks foram executados com um orçamento de pensamento de 32k tokens. O A3B em especial supera o QWQ e pode ser útil para inferência em CPU.
Os números de desempenho são muito impressionantes. O MoE supera o o1 com 3B de parâmetros ativos. Os modelos locais estão ficando bons o suficiente para dar conta da maioria das tarefas.