DeepSeek-R1 Ilustrado
(newsletter.languagemodels.co)The Illustrated DeepSeek-R1
-
Introdução ao DeepSeek-R1
- O DeepSeek-R1 é um marco importante no avanço da IA e tem grande impacto na comunidade de pesquisa e desenvolvimento em ML.
- Este modelo é um modelo de pesos abertos, e também oferece versões destiladas menores.
- Ele compartilha e incorpora métodos de treinamento que reproduzem modelos de raciocínio como o OpenAI O1.
-
Resumo do treinamento de LLMs
- O DeepSeek-R1, assim como outros LLMs, gera um token por vez e se destaca na resolução de problemas de matemática e raciocínio.
- O processo geral para criar um LLM de alta qualidade é o seguinte:
- Etapa de modelagem de linguagem, usando grandes volumes de dados da web para prever a próxima palavra.
- Etapa de ajuste fino supervisionado, para fazer o modelo seguir instruções e responder perguntas.
- Etapa de alinhamento por preferências, para refinar o comportamento do modelo de acordo com preferências humanas.
-
Processo de treinamento do DeepSeek-R1
- O DeepSeek-R1 usa o modelo base do DeepSeek-V3 e passa pelas etapas de SFT e alinhamento por preferências.
- Há três pontos especiais a destacar no processo de criação do R1:
- Dados de SFT com longas cadeias de raciocínio: inclui 600 mil exemplos de raciocínio longo.
- LLM temporário de raciocínio de alta qualidade: um modelo especializado em raciocínio, criado com uma pequena quantidade de dados rotulados e aprendizado por reforço em larga escala.
- Criação de modelos de raciocínio por meio de aprendizado por reforço em larga escala: gera exemplos de raciocínio por meio de um modelo chamado R1-Zero e usa isso para treinar um modelo geral.
-
Características do R1-Zero
- O R1-Zero se destaca em tarefas de raciocínio mesmo sem um conjunto de treinamento SFT rotulado.
- Isso sugere que os modelos base modernos já estão ultrapassando certo nível de qualidade e capacidade.
- Problemas de raciocínio podem ser verificados ou rotulados automaticamente.
-
Geração de dados de raciocínio para SFT
- O modelo temporário de raciocínio passa por uma etapa de treinamento SFT usando alguns milhares de exemplos de problemas de raciocínio.
- Esses dados são gerados ao transformar as saídas do R1-Zero em um formato mais legível.
-
Etapa geral de treinamento com RL
- O R1 se destaca tanto em tarefas de raciocínio quanto em tarefas que não envolvem raciocínio.
- Ele é aplicado a várias aplicações usando modelos de recompensa de utilidade e segurança.
-
Arquitetura
- O DeepSeek-R1 é composto por 61 blocos decodificadores Transformer.
- Os três primeiros são camadas densas, e os demais são camadas de mistura de especialistas.
-
Conclusão
- Isso ajuda a entender os principais conceitos do modelo DeepSeek-R1.
- Mais informações podem ser encontradas no livro Hands-On Large Language Models ou no GitHub.
Ainda não há comentários.