2 pontos por GN⁺ 2025-01-28 | Ainda não há comentários. | Compartilhar no WhatsApp

The Illustrated DeepSeek-R1

  • Introdução ao DeepSeek-R1

    • O DeepSeek-R1 é um marco importante no avanço da IA e tem grande impacto na comunidade de pesquisa e desenvolvimento em ML.
    • Este modelo é um modelo de pesos abertos, e também oferece versões destiladas menores.
    • Ele compartilha e incorpora métodos de treinamento que reproduzem modelos de raciocínio como o OpenAI O1.
  • Resumo do treinamento de LLMs

    • O DeepSeek-R1, assim como outros LLMs, gera um token por vez e se destaca na resolução de problemas de matemática e raciocínio.
    • O processo geral para criar um LLM de alta qualidade é o seguinte:
      1. Etapa de modelagem de linguagem, usando grandes volumes de dados da web para prever a próxima palavra.
      2. Etapa de ajuste fino supervisionado, para fazer o modelo seguir instruções e responder perguntas.
      3. Etapa de alinhamento por preferências, para refinar o comportamento do modelo de acordo com preferências humanas.
  • Processo de treinamento do DeepSeek-R1

    • O DeepSeek-R1 usa o modelo base do DeepSeek-V3 e passa pelas etapas de SFT e alinhamento por preferências.
    • Há três pontos especiais a destacar no processo de criação do R1:
      1. Dados de SFT com longas cadeias de raciocínio: inclui 600 mil exemplos de raciocínio longo.
      2. LLM temporário de raciocínio de alta qualidade: um modelo especializado em raciocínio, criado com uma pequena quantidade de dados rotulados e aprendizado por reforço em larga escala.
      3. Criação de modelos de raciocínio por meio de aprendizado por reforço em larga escala: gera exemplos de raciocínio por meio de um modelo chamado R1-Zero e usa isso para treinar um modelo geral.
  • Características do R1-Zero

    • O R1-Zero se destaca em tarefas de raciocínio mesmo sem um conjunto de treinamento SFT rotulado.
    • Isso sugere que os modelos base modernos já estão ultrapassando certo nível de qualidade e capacidade.
    • Problemas de raciocínio podem ser verificados ou rotulados automaticamente.
  • Geração de dados de raciocínio para SFT

    • O modelo temporário de raciocínio passa por uma etapa de treinamento SFT usando alguns milhares de exemplos de problemas de raciocínio.
    • Esses dados são gerados ao transformar as saídas do R1-Zero em um formato mais legível.
  • Etapa geral de treinamento com RL

    • O R1 se destaca tanto em tarefas de raciocínio quanto em tarefas que não envolvem raciocínio.
    • Ele é aplicado a várias aplicações usando modelos de recompensa de utilidade e segurança.
  • Arquitetura

    • O DeepSeek-R1 é composto por 61 blocos decodificadores Transformer.
    • Os três primeiros são camadas densas, e os demais são camadas de mistura de especialistas.
  • Conclusão

    • Isso ajuda a entender os principais conceitos do modelo DeepSeek-R1.
    • Mais informações podem ser encontradas no livro Hands-On Large Language Models ou no GitHub.

Ainda não há comentários.

Ainda não há comentários.