8 pontos por GN⁺ 2025-04-29 | 2 comentários | Compartilhar no WhatsApp
  • Qwen3 é o mais recente grande modelo de linguagem, com até 235B de parâmetros, e apresenta desempenho em nível competitivo com DeepSeek-R1, Grok-3 e Gemini-2.5-Pro
  • Suporta modo de raciocínio híbrido (Thinking/Non-Thinking), permitindo ajustar a profundidade da inferência conforme a dificuldade do problema
  • Suporta 119 idiomas e dialetos, ampliando significativamente sua aplicabilidade global
  • Foi pré-treinado com 36 trilhões de tokens de dados, o dobro da geração anterior, melhorando suas capacidades em programação, matemática e raciocínio lógico
  • Foi lançado como open source sob a licença Apache 2.0 e pode ser usado imediatamente em Hugging Face, ModelScope e Kaggle

Introdução

  • Qwen3 é o mais recente grande modelo de linguagem da série Qwen, e o principal modelo flagship é o Qwen3-235B-A22B, com 235B de parâmetros
  • O pequeno modelo MoE Qwen3-30B-A3B apresenta desempenho superior ao QwQ-32B, que ativa 10 vezes mais parâmetros
  • Foram lançados sob a licença Apache 2.0 6 modelos Dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) e 2 modelos MoE (30B, 235B)

Principais características

  • Modo de raciocínio híbrido

    • Modo Thinking: realiza raciocínio passo a passo para problemas complexos
    • Modo Non-Thinking: fornece respostas imediatas para problemas simples que exigem rapidez
    • É possível ajustar o orçamento de inferência conforme a tarefa para otimizar custo-benefício e qualidade
  • Suporte multilíngue

    • O suporte a 119 idiomas e dialetos fortalece a possibilidade de expansão para aplicações globais
    • Principais famílias de idiomas suportadas: indo-europeia, sino-tibetana, afro-asiática, austronésia, dravídica etc.
  • Recursos de agente aprimorados

    • Capacidades de programação e de agente otimizadas
    • Integrado ao Qwen-Agent, pode maximizar a capacidade de chamadas de ferramentas

Pré-treinamento

  • O pré-treinamento foi realizado com 36 trilhões de tokens, o dobro em relação ao Qwen2.5
  • Foram coletados dados da web e documentos semelhantes a PDF para compor diversos conjuntos de dados de alta qualidade
  • Os dados nas áreas de STEM, programação e matemática foram reforçados para alcançar melhoria geral na capacidade de raciocínio

Pós-treinamento

  • Foi aplicado um pipeline de 4 etapas (início com CoT → aprendizado por reforço → fusão dos modos de raciocínio → aprendizado por reforço geral)
  • O modelo foi otimizado para realizar ao mesmo tempo raciocínio lógico e respostas rápidas
  • O aprendizado por reforço em mais de 20 tarefas de domínio geral reforçou a generalização e a estabilidade

Desenvolvendo com Qwen3

  • Suporta vários frameworks, como Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio e llama.cpp
  • O modo Thinking pode ser ativado/desativado facilmente no código, e também é possível alterná-lo durante a conversa com os comandos /think e /no_think

Como usar agentes

  • Com o Qwen-Agent, é possível construir sistemas de agentes complexos usando arquivos de configuração MCP ou ferramentas embutidas
  • Também é possível construir diretamente um servidor compatível com a API da OpenAI para implantação local ou pública

Trabalhos futuros

  • Qwen3 representa um marco importante rumo à inteligência artificial geral (AGI) e à superinteligência artificial (ASI), alcançando níveis mais altos de inteligência ao expandir o pré-treinamento e o aprendizado por reforço
  • O objetivo é melhorar a arquitetura do modelo e a metodologia de treinamento, avançando em expansão de dados, aumento do tamanho do modelo, ampliação do comprimento de contexto, expansão de modalidades e raciocínio de longo prazo por meio de feedback do ambiente
  • Está em curso a transição de uma era centrada no treinamento de modelos para uma era centrada no treinamento de agentes, e a próxima versão trará avanços significativos para o trabalho e a vida de todos

2 comentários

 
iwanhae 2025-04-29

Os modelos grandes também são interessantes, mas o lado dos modelos pequenos é ainda mais interessante.
Parece que o modelo de 0,6B entrega algo próximo do desempenho de 7B de vários outros modelos.

 
GN⁺ 2025-04-29
Opiniões do Hacker News
  • Apresentei um problema de física para LLMs, e era uma questão difícil até para humanos. GPT o3, Claude 3.7 e Gemini 2.5 Pro não acertaram a resposta de primeira. O Qwen3 errou ainda mais.

  • A documentação é bem feita, com suporte às principais stacks de inferência disponível desde o primeiro dia. Há várias opções de tamanho. Já existe experiência de trabalho com a comunidade de criadores de quantização.

  • Ainda não testei o desempenho, mas só a atenção aos detalhes ao redor já faz deste um excelente lançamento. Em comparação com o Llama 4 da Meta, é o tipo de padrão que deveria ser seguido.

  • Os resultados de benchmark são tão bons que chega a ser difícil acreditar. O modelo 30B compete com o Gemini 2.5 Pro e é muito melhor que o Gemma 27B.

  • Estão surgindo vários modelos open weight, e fico me perguntando se existe alguma forma de descobrir qual deles roda a uma velocidade razoável em uma GPU de desktop padrão. Uso uma Quadro RTX 4000 e não sei qual dos vários tamanhos de modelo seria rápido.

  • É possível que os modelos Qwen e DeepSeek tenham sido treinados de acordo com a visão de mundo do PCC, mas na prática isso não causou problemas. Não há muita pesquisa sobre isso.

  • O Qwen-30B-A3B é o que mais me anima. Parece adequado como assistente de programação offline/local. Até agora, os modelos open weight ou tinham desempenho fraco ou eram lentos demais.

  • Estou procurando insights sobre a melhor forma de comparar modelos de raciocínio. Recomenda-se temperatura alta para respostas criativas e temperatura baixa para saídas lógicas e determinísticas. Mas não tenho certeza se isso se aplica a modelos de raciocínio.

  • É interessante que um LLM de 0.6B tenha uma janela de contexto de 32k. Pode ser um modelo base divertido para fine-tuning. É o mais baixado e curtido no Hugging Face.

  • Esses modelos parecem pensar bastante. Os benchmarks foram executados com um orçamento de pensamento de 32k tokens. O A3B em especial supera o QWQ e pode ser útil para inferência em CPU.

  • Os números de desempenho são muito impressionantes. O MoE supera o o1 com 3B de parâmetros ativos. Os modelos locais estão ficando bons o suficiente para dar conta da maioria das tarefas.