16 pontos por GN⁺ 2025-01-29 | Ainda não há comentários. | Compartilhar no WhatsApp

O que é o DeepSeek-R1?

  • O modelo o1 da OpenAI foi treinado usando mais capacidade computacional para permitir que LLMs executem melhor tarefas de raciocínio.
  • O DeepSeek-R1 apresenta desempenho semelhante ou superior ao modelo o1 da OpenAI e aprende a raciocinar sem supervisão humana por meio de aprendizado por reforço (RL) puro.
  • O lançamento do DeepSeek-R1 levanta várias questões sobre coleta de dados, treinamento de modelos e leis de escala.

Como eles fizeram isso?

  • O DeepSeek-R1 é um modelo de raciocínio construído com base no DeepSeek-V3 e é um modelo Mixture of Experts (MoE) de 671B.
  • O DeepSeek-R1-Zero foi treinado usando apenas aprendizado por reforço e utiliza Group Relative Policy Optimization (GRPO) para aumentar a eficiência.
  • O DeepSeek-R1 usa pequenos exemplos na fase inicial para melhorar clareza e legibilidade e, depois, passa por etapas de aprendizado por reforço e refinamento para gerar respostas consistentes.

Open-R1: as peças que faltam

  • A divulgação do DeepSeek-R1 foi de grande ajuda para a comunidade, mas o dataset e o código não foram abertos.
  • O projeto Open-R1 tem como objetivo reconstruir os dados e o pipeline de treinamento do DeepSeek-R1 e oferecer transparência sobre como o aprendizado por reforço melhora o raciocínio.

Plano em etapas do Open-R1

  1. Reproduzir os modelos R1-Distill: extrair datasets de raciocínio de alta qualidade do DeepSeek-R1 e realizar treinamento por destilação
  2. Replicar o pipeline de treinamento de RL puro do R1-Zero: construir datasets em larga escala de matemática, lógica e código
  3. Construir o processo de treinamento etapa por etapa: modelo base → SFT → RL

Como contribuir

  • Há várias formas de contribuir com o projeto Open-R1, como contribuir com código e participar de discussões no Hugging Face.
  • Este projeto se concentra não apenas em reproduzir os resultados, mas também em compartilhar insights com a comunidade.

Ainda não há comentários.

Ainda não há comentários.