QwQ-32B: alcançando desempenho semelhante ao DeepSeek-R1 com menos parâmetros por meio de aprendizado por reforço

(qwenlm.github.io)

3 pontos por GN⁺ 2025-03-06 | 1 comentários | Compartilhar no WhatsApp

O modelo QwQ-32B tem 32 bilhões de parâmetros e apresenta desempenho semelhante ao DeepSeek-R1
O modelo utiliza aprendizado por reforço (RL) para aumentar a inteligência de grandes modelos de linguagem
Está disponível sob a licença Apache 2.0 no Hugging Face e no ModelScope, e pode ser acessado pelo Qwen Chat

Desempenho

O QwQ-32B foi testado em vários benchmarks que avaliam raciocínio matemático, capacidade de programação e resolução geral de problemas.
O desempenho foi avaliado em comparação com DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini e o DeepSeek-R1 original
- QwQ-32B obteve o melhor desempenho no LiveBench e no BFCL, e também ficou em nível semelhante ao DeepSeek-R1-671B no IFEval e no AIME24
- No LiveCodeBench, ficou um pouco abaixo do DeepSeek-R1-671B, mas ainda superior aos outros modelos
- No geral, demonstrou competitividade ao apresentar desempenho semelhante ou melhor que o DeepSeek-R1-671B, mesmo com muito menos parâmetros (32,5 bilhões vs. 671 bilhões)
- Em outras palavras, o ponto principal é que o QwQ-32B é um modelo otimizado com aprendizado por reforço que alcança desempenho de ponta apesar de sua escala muito menor

Aprendizado por reforço

Na fase inicial, foi introduzida uma abordagem de escalonamento de aprendizado por reforço (RL) para tarefas de matemática e programação
Em vez de um modelo de recompensa tradicional, foram usados um verificador de exatidão e um servidor de execução de código para garantir a correção da solução final
Há uma etapa adicional de RL para capacidades gerais, que melhora o desempenho em habilidades amplas, como preferências humanas e desempenho de agentes

Trabalhos futuros

O Qwen ainda está nos estágios iniciais de expansão do aprendizado por reforço (RL) para melhorar a capacidade de raciocínio
A combinação de um modelo-base reforçado com recursos computacionais escalados deve aproximá-lo do alcance da inteligência artificial geral (AGI)
Também está explorando como permitir raciocínio de longo prazo por meio da integração entre agentes e RL, para demonstrar uma inteligência ainda maior

1 comentários

GN⁺ 2025-03-06

Comentários do Hacker News

É preciso prestar atenção ao comprimento longo de contexto (130k tokens). Gerar uma CoT longa sem contexto suficiente não faz sentido
- O primeiro prompt é longo demais, então ele esquece a tarefa
- O usuário não forneceu uma tarefa específica
- A instrução inicial é agir como um agente de IA
- Parece que o usuário vai apresentar um problema e pedir raciocínio passo a passo
Treinamento em matemática e programação melhora a capacidade geral de raciocínio
É 20 vezes menor que o DeepSeek. Fico curioso sobre em que hardware isso consegue rodar
- Provavelmente não precisa de um M3 Ultra com 512GB
- Se equipara ao DeepSeek, mas é 20 vezes menor
A estratégia da China é monetizar software de código aberto e robótica
- Fico curioso sobre como os EUA vão manter sua força
- A Índia não está conseguindo participar dessa competição
Foi fornecido um link para testar o Qwen2.5-plus
Foi lançado como "preview" em novembro de 2024
- Usa muito a expressão "espere"
- Ocorre o problema de perder o fio da meada após gerar muitos tokens de raciocínio
Fica logo abaixo do Deepseek-R1
- Muito impressionante para 32B
- Às vezes os tokens de pensamento ficam 10 vezes maiores que a resposta final
- Vou testar com chamada de função no fim de semana
Em uma experiência pessoal, foi feito um teste de ler ao contrário e responder à pergunta
- Se ler "ip fo eulav si tahw" ao contrário, vira "what is value of pi"
- O valor de π é aproximadamente 3.14159
- π é um número irracional, que continua indefinidamente sem se repetir
Respondeu imediatamente, e a experiência foi positiva

QwQ-32B: alcançando desempenho semelhante ao DeepSeek-R1 com menos parâmetros por meio de aprendizado por reforço

Desempenho

Aprendizado por reforço

Trabalhos futuros

Leituras relacionadas

1 comentários

Comentários do Hacker News