- O modelo QwQ-32B tem 32 bilhões de parâmetros e apresenta desempenho semelhante ao DeepSeek-R1
- O modelo utiliza aprendizado por reforço (RL) para aumentar a inteligência de grandes modelos de linguagem
- Está disponível sob a licença Apache 2.0 no Hugging Face e no ModelScope, e pode ser acessado pelo Qwen Chat
Desempenho
- O QwQ-32B foi testado em vários benchmarks que avaliam raciocínio matemático, capacidade de programação e resolução geral de problemas.
- O desempenho foi avaliado em comparação com DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini e o DeepSeek-R1 original
- QwQ-32B obteve o melhor desempenho no LiveBench e no BFCL, e também ficou em nível semelhante ao DeepSeek-R1-671B no IFEval e no AIME24
- No LiveCodeBench, ficou um pouco abaixo do DeepSeek-R1-671B, mas ainda superior aos outros modelos
- No geral, demonstrou competitividade ao apresentar desempenho semelhante ou melhor que o DeepSeek-R1-671B, mesmo com muito menos parâmetros (32,5 bilhões vs. 671 bilhões)
- Em outras palavras, o ponto principal é que o QwQ-32B é um modelo otimizado com aprendizado por reforço que alcança desempenho de ponta apesar de sua escala muito menor
Aprendizado por reforço
- Na fase inicial, foi introduzida uma abordagem de escalonamento de aprendizado por reforço (RL) para tarefas de matemática e programação
- Em vez de um modelo de recompensa tradicional, foram usados um verificador de exatidão e um servidor de execução de código para garantir a correção da solução final
- Há uma etapa adicional de RL para capacidades gerais, que melhora o desempenho em habilidades amplas, como preferências humanas e desempenho de agentes
Trabalhos futuros
- O Qwen ainda está nos estágios iniciais de expansão do aprendizado por reforço (RL) para melhorar a capacidade de raciocínio
- A combinação de um modelo-base reforçado com recursos computacionais escalados deve aproximá-lo do alcance da inteligência artificial geral (AGI)
- Também está explorando como permitir raciocínio de longo prazo por meio da integração entre agentes e RL, para demonstrar uma inteligência ainda maior
1 comentários
Comentários do Hacker News
É preciso prestar atenção ao comprimento longo de contexto (130k tokens). Gerar uma CoT longa sem contexto suficiente não faz sentido
Treinamento em matemática e programação melhora a capacidade geral de raciocínio
É 20 vezes menor que o DeepSeek. Fico curioso sobre em que hardware isso consegue rodar
A estratégia da China é monetizar software de código aberto e robótica
Foi fornecido um link para testar o Qwen2.5-plus
Foi lançado como "preview" em novembro de 2024
Fica logo abaixo do Deepseek-R1
Em uma experiência pessoal, foi feito um teste de ler ao contrário e responder à pergunta
Respondeu imediatamente, e a experiência foi positiva