4 pontos por GN⁺ 2025-02-03 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Livro e curso online gratuitos criados para aprender RLHF e pós-treinamento de modelos de linguagem em um só lugar, estruturados para que leitores com base quantitativa consigam acompanhar todo o processo de treinamento
  • O fluxo central é a receita de RLHF, conectando e explicando instruction tuning, treinamento de reward model, rejection sampling, reinforcement learning, on-policy distillation e algoritmos de direct alignment
  • Além dos marcos técnicos, também aborda as origens do RLHF em economia, filosofia, controle ótimo e outras áreas, permitindo ver de forma ampla o contexto em que o conceito surgiu
  • Como materiais complementares, são oferecidos um codebase dos algoritmos, uma biblioteca para comparar conclusões de modelos em cada etapa do pós-treinamento e uma página de curso educacional
  • Após a edição final de abril de 2026 e a incorporação das melhorias da edição da Manning, o livro seguirá para a versão impressa, e mudanças no conteúdo devem se tornar menos frequentes

Um livro para aprender RLHF e pós-treinamento

  • RLHF se tornou uma ferramenta importante para construir sistemas modernos de machine learning em grande escala, e o escopo da discussão também se expandiu dos métodos centrais de RLHF para um conjunto mais amplo de técnicas de pós-treinamento (post-training)
  • Começando com uma introdução breve focada em modelos de linguagem, o material foi organizado para que leitores com base quantitativa entendam em sequência os métodos centrais do pós-treinamento de modelos
  • Seguindo o procedimento padrão de RLHF, os tópicos são apresentados na seguinte ordem
    • o que o RLHF faz e por que foi criado
    • os principais marcos técnicos em uma breve história
    • a base de reinforcement learning necessária para entender o livro
    • as etapas de otimização, do instruction tuning ao treinamento de reward model
    • rejection sampling, reinforcement learning, on-policy distillation e algoritmos de direct alignment
  • A parte final trata de perguntas abertas e áreas menos estudadas ou emergentes, como dados sintéticos, uso de ferramentas, aprendizado de personagens e avaliação

Materiais incluídos e histórico de mudanças

  • Também são oferecidos materiais complementares para aprender os conceitos fundamentais de modelos de linguagem em pós-treinamento
    • codebase: implementação dos algoritmos apresentados no livro
    • library: biblioteca para comparar conclusões de modelos dentro das etapas de pós-treinamento
    • course: página de curso educacional
  • Mudanças de 2026

    • abril de 2026: edição final para a versão impressa, incorporação das melhorias da edição da Manning, esclarecimento de fórmulas e terminologia, correções de erros de digitação e gramática em todos os capítulos, expansão do capítulo de produto
    • março de 2026: publicação da course page com vídeos das aulas, destaque de sintaxe no PDF, expansão do capítulo de produto
    • fevereiro de 2026: com o conteúdo v2, adição do capítulo de direct alignment, novos diagramas, folha de consulta de RL, apêndice, barra de busca, suporte a Kindle e revisões editoriais
    • janeiro de 2026: grande reorganização dos capítulos para se alinhar à estrutura do livro da Manning, biblioteca de exemplos de código, aplicação de redirecionamentos das URLs antigas para os novos locais
    • Em 2025 e 2024, foram adicionados gradualmente DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization, bibliography e outros tópicos
    • O formato de citação da edição de 2026 é fornecido como @book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}

Ainda não há comentários.

Ainda não há comentários.