3 pontos por GN⁺ 2025-03-06 | 1 comentários | Compartilhar no WhatsApp
  • O modelo QwQ-32B tem 32 bilhões de parâmetros e apresenta desempenho semelhante ao DeepSeek-R1
  • O modelo utiliza aprendizado por reforço (RL) para aumentar a inteligência de grandes modelos de linguagem
  • Está disponível sob a licença Apache 2.0 no Hugging Face e no ModelScope, e pode ser acessado pelo Qwen Chat

Desempenho

  • O QwQ-32B foi testado em vários benchmarks que avaliam raciocínio matemático, capacidade de programação e resolução geral de problemas.
  • O desempenho foi avaliado em comparação com DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini e o DeepSeek-R1 original
    • QwQ-32B obteve o melhor desempenho no LiveBench e no BFCL, e também ficou em nível semelhante ao DeepSeek-R1-671B no IFEval e no AIME24
    • No LiveCodeBench, ficou um pouco abaixo do DeepSeek-R1-671B, mas ainda superior aos outros modelos
    • No geral, demonstrou competitividade ao apresentar desempenho semelhante ou melhor que o DeepSeek-R1-671B, mesmo com muito menos parâmetros (32,5 bilhões vs. 671 bilhões)
    • Em outras palavras, o ponto principal é que o QwQ-32B é um modelo otimizado com aprendizado por reforço que alcança desempenho de ponta apesar de sua escala muito menor

Aprendizado por reforço

  • Na fase inicial, foi introduzida uma abordagem de escalonamento de aprendizado por reforço (RL) para tarefas de matemática e programação
  • Em vez de um modelo de recompensa tradicional, foram usados um verificador de exatidão e um servidor de execução de código para garantir a correção da solução final
  • Há uma etapa adicional de RL para capacidades gerais, que melhora o desempenho em habilidades amplas, como preferências humanas e desempenho de agentes

Trabalhos futuros

  • O Qwen ainda está nos estágios iniciais de expansão do aprendizado por reforço (RL) para melhorar a capacidade de raciocínio
  • A combinação de um modelo-base reforçado com recursos computacionais escalados deve aproximá-lo do alcance da inteligência artificial geral (AGI)
  • Também está explorando como permitir raciocínio de longo prazo por meio da integração entre agentes e RL, para demonstrar uma inteligência ainda maior

1 comentários

 
GN⁺ 2025-03-06
Comentários do Hacker News
  • É preciso prestar atenção ao comprimento longo de contexto (130k tokens). Gerar uma CoT longa sem contexto suficiente não faz sentido

    • O primeiro prompt é longo demais, então ele esquece a tarefa
    • O usuário não forneceu uma tarefa específica
    • A instrução inicial é agir como um agente de IA
    • Parece que o usuário vai apresentar um problema e pedir raciocínio passo a passo
  • Treinamento em matemática e programação melhora a capacidade geral de raciocínio

  • É 20 vezes menor que o DeepSeek. Fico curioso sobre em que hardware isso consegue rodar

    • Provavelmente não precisa de um M3 Ultra com 512GB
    • Se equipara ao DeepSeek, mas é 20 vezes menor
  • A estratégia da China é monetizar software de código aberto e robótica

    • Fico curioso sobre como os EUA vão manter sua força
    • A Índia não está conseguindo participar dessa competição
  • Foi fornecido um link para testar o Qwen2.5-plus

  • Foi lançado como "preview" em novembro de 2024

    • Usa muito a expressão "espere"
    • Ocorre o problema de perder o fio da meada após gerar muitos tokens de raciocínio
  • Fica logo abaixo do Deepseek-R1

    • Muito impressionante para 32B
    • Às vezes os tokens de pensamento ficam 10 vezes maiores que a resposta final
    • Vou testar com chamada de função no fim de semana
  • Em uma experiência pessoal, foi feito um teste de ler ao contrário e responder à pergunta

    • Se ler "ip fo eulav si tahw" ao contrário, vira "what is value of pi"
    • O valor de π é aproximadamente 3.14159
    • π é um número irracional, que continua indefinidamente sem se repetir
  • Respondeu imediatamente, e a experiência foi positiva