O que é o DeepSeek-R1?
- O modelo o1 da OpenAI foi treinado usando mais capacidade computacional para permitir que LLMs executem melhor tarefas de raciocínio.
- O DeepSeek-R1 apresenta desempenho semelhante ou superior ao modelo o1 da OpenAI e aprende a raciocinar sem supervisão humana por meio de aprendizado por reforço (RL) puro.
- O lançamento do DeepSeek-R1 levanta várias questões sobre coleta de dados, treinamento de modelos e leis de escala.
Como eles fizeram isso?
- O DeepSeek-R1 é um modelo de raciocínio construído com base no DeepSeek-V3 e é um modelo Mixture of Experts (MoE) de 671B.
- O DeepSeek-R1-Zero foi treinado usando apenas aprendizado por reforço e utiliza Group Relative Policy Optimization (GRPO) para aumentar a eficiência.
- O DeepSeek-R1 usa pequenos exemplos na fase inicial para melhorar clareza e legibilidade e, depois, passa por etapas de aprendizado por reforço e refinamento para gerar respostas consistentes.
Open-R1: as peças que faltam
- A divulgação do DeepSeek-R1 foi de grande ajuda para a comunidade, mas o dataset e o código não foram abertos.
- O projeto Open-R1 tem como objetivo reconstruir os dados e o pipeline de treinamento do DeepSeek-R1 e oferecer transparência sobre como o aprendizado por reforço melhora o raciocínio.
Plano em etapas do Open-R1
- Reproduzir os modelos R1-Distill: extrair datasets de raciocínio de alta qualidade do DeepSeek-R1 e realizar treinamento por destilação
- Replicar o pipeline de treinamento de RL puro do R1-Zero: construir datasets em larga escala de matemática, lógica e código
- Construir o processo de treinamento etapa por etapa: modelo base → SFT → RL
Como contribuir
- Há várias formas de contribuir com o projeto Open-R1, como contribuir com código e participar de discussões no Hugging Face.
- Este projeto se concentra não apenas em reproduzir os resultados, mas também em compartilhar insights com a comunidade.
Ainda não há comentários.