DeepSeek-R1 Ilustrado

(newsletter.languagemodels.co)

2 pontos por GN⁺ 2025-01-28 | Ainda não há comentários. | Compartilhar no WhatsApp

The Illustrated DeepSeek-R1

Introdução ao DeepSeek-R1
- O DeepSeek-R1 é um marco importante no avanço da IA e tem grande impacto na comunidade de pesquisa e desenvolvimento em ML.
- Este modelo é um modelo de pesos abertos, e também oferece versões destiladas menores.
- Ele compartilha e incorpora métodos de treinamento que reproduzem modelos de raciocínio como o OpenAI O1.
Resumo do treinamento de LLMs
- O DeepSeek-R1, assim como outros LLMs, gera um token por vez e se destaca na resolução de problemas de matemática e raciocínio.
- O processo geral para criar um LLM de alta qualidade é o seguinte:
  1. Etapa de modelagem de linguagem, usando grandes volumes de dados da web para prever a próxima palavra.
  2. Etapa de ajuste fino supervisionado, para fazer o modelo seguir instruções e responder perguntas.
  3. Etapa de alinhamento por preferências, para refinar o comportamento do modelo de acordo com preferências humanas.
Processo de treinamento do DeepSeek-R1
- O DeepSeek-R1 usa o modelo base do DeepSeek-V3 e passa pelas etapas de SFT e alinhamento por preferências.
- Há três pontos especiais a destacar no processo de criação do R1:
  1. Dados de SFT com longas cadeias de raciocínio: inclui 600 mil exemplos de raciocínio longo.
  2. LLM temporário de raciocínio de alta qualidade: um modelo especializado em raciocínio, criado com uma pequena quantidade de dados rotulados e aprendizado por reforço em larga escala.
  3. Criação de modelos de raciocínio por meio de aprendizado por reforço em larga escala: gera exemplos de raciocínio por meio de um modelo chamado R1-Zero e usa isso para treinar um modelo geral.
Características do R1-Zero
- O R1-Zero se destaca em tarefas de raciocínio mesmo sem um conjunto de treinamento SFT rotulado.
- Isso sugere que os modelos base modernos já estão ultrapassando certo nível de qualidade e capacidade.
- Problemas de raciocínio podem ser verificados ou rotulados automaticamente.
Geração de dados de raciocínio para SFT
- O modelo temporário de raciocínio passa por uma etapa de treinamento SFT usando alguns milhares de exemplos de problemas de raciocínio.
- Esses dados são gerados ao transformar as saídas do R1-Zero em um formato mais legível.
Etapa geral de treinamento com RL
- O R1 se destaca tanto em tarefas de raciocínio quanto em tarefas que não envolvem raciocínio.
- Ele é aplicado a várias aplicações usando modelos de recompensa de utilidade e segurança.
Arquitetura
- O DeepSeek-R1 é composto por 61 blocos decodificadores Transformer.
- Os três primeiros são camadas densas, e os demais são camadas de mistura de especialistas.
Conclusão
- Isso ajuda a entender os principais conceitos do modelo DeepSeek-R1.
- Mais informações podem ser encontradas no livro Hands-On Large Language Models ou no GitHub.

DeepSeek-R1 Ilustrado

The Illustrated DeepSeek-R1

Leituras relacionadas

Ainda não há comentários.