Open-R1: projeto de reprodução totalmente open source do DeepSeek-R1

(huggingface.co)

16 pontos por GN⁺ 2025-01-29 | Ainda não há comentários. | Compartilhar no WhatsApp

O que é o DeepSeek-R1?

O modelo o1 da OpenAI foi treinado usando mais capacidade computacional para permitir que LLMs executem melhor tarefas de raciocínio.
O DeepSeek-R1 apresenta desempenho semelhante ou superior ao modelo o1 da OpenAI e aprende a raciocinar sem supervisão humana por meio de aprendizado por reforço (RL) puro.
O lançamento do DeepSeek-R1 levanta várias questões sobre coleta de dados, treinamento de modelos e leis de escala.

O DeepSeek-R1 é um modelo de raciocínio construído com base no DeepSeek-V3 e é um modelo Mixture of Experts (MoE) de 671B.
O DeepSeek-R1-Zero foi treinado usando apenas aprendizado por reforço e utiliza Group Relative Policy Optimization (GRPO) para aumentar a eficiência.
O DeepSeek-R1 usa pequenos exemplos na fase inicial para melhorar clareza e legibilidade e, depois, passa por etapas de aprendizado por reforço e refinamento para gerar respostas consistentes.

A divulgação do DeepSeek-R1 foi de grande ajuda para a comunidade, mas o dataset e o código não foram abertos.
O projeto Open-R1 tem como objetivo reconstruir os dados e o pipeline de treinamento do DeepSeek-R1 e oferecer transparência sobre como o aprendizado por reforço melhora o raciocínio.

Reproduzir os modelos R1-Distill: extrair datasets de raciocínio de alta qualidade do DeepSeek-R1 e realizar treinamento por destilação
Replicar o pipeline de treinamento de RL puro do R1-Zero: construir datasets em larga escala de matemática, lógica e código
Construir o processo de treinamento etapa por etapa: modelo base → SFT → RL

Há várias formas de contribuir com o projeto Open-R1, como contribuir com código e participar de discussões no Hugging Face.
Este projeto se concentra não apenas em reproduzir os resultados, mas também em compartilhar insights com a comunidade.