Lançamento do livro sobre RLHF
(rlhfbook.com)- Livro e curso online gratuitos criados para aprender RLHF e pós-treinamento de modelos de linguagem em um só lugar, estruturados para que leitores com base quantitativa consigam acompanhar todo o processo de treinamento
- O fluxo central é a receita de RLHF, conectando e explicando instruction tuning, treinamento de reward model, rejection sampling, reinforcement learning, on-policy distillation e algoritmos de direct alignment
- Além dos marcos técnicos, também aborda as origens do RLHF em economia, filosofia, controle ótimo e outras áreas, permitindo ver de forma ampla o contexto em que o conceito surgiu
- Como materiais complementares, são oferecidos um codebase dos algoritmos, uma biblioteca para comparar conclusões de modelos em cada etapa do pós-treinamento e uma página de curso educacional
- Após a edição final de abril de 2026 e a incorporação das melhorias da edição da Manning, o livro seguirá para a versão impressa, e mudanças no conteúdo devem se tornar menos frequentes
Um livro para aprender RLHF e pós-treinamento
- RLHF se tornou uma ferramenta importante para construir sistemas modernos de machine learning em grande escala, e o escopo da discussão também se expandiu dos métodos centrais de RLHF para um conjunto mais amplo de técnicas de pós-treinamento (post-training)
- Começando com uma introdução breve focada em modelos de linguagem, o material foi organizado para que leitores com base quantitativa entendam em sequência os métodos centrais do pós-treinamento de modelos
- Seguindo o procedimento padrão de RLHF, os tópicos são apresentados na seguinte ordem
- o que o RLHF faz e por que foi criado
- os principais marcos técnicos em uma breve história
- a base de reinforcement learning necessária para entender o livro
- as etapas de otimização, do instruction tuning ao treinamento de reward model
- rejection sampling, reinforcement learning, on-policy distillation e algoritmos de direct alignment
- A parte final trata de perguntas abertas e áreas menos estudadas ou emergentes, como dados sintéticos, uso de ferramentas, aprendizado de personagens e avaliação
Materiais incluídos e histórico de mudanças
- Também são oferecidos materiais complementares para aprender os conceitos fundamentais de modelos de linguagem em pós-treinamento
-
Mudanças de 2026
- abril de 2026: edição final para a versão impressa, incorporação das melhorias da edição da Manning, esclarecimento de fórmulas e terminologia, correções de erros de digitação e gramática em todos os capítulos, expansão do capítulo de produto
- março de 2026: publicação da course page com vídeos das aulas, destaque de sintaxe no PDF, expansão do capítulo de produto
- fevereiro de 2026: com o conteúdo v2, adição do capítulo de direct alignment, novos diagramas, folha de consulta de RL, apêndice, barra de busca, suporte a Kindle e revisões editoriais
- janeiro de 2026: grande reorganização dos capítulos para se alinhar à estrutura do livro da Manning, biblioteca de exemplos de código, aplicação de redirecionamentos das URLs antigas para os novos locais
- Em 2025 e 2024, foram adicionados gradualmente DPO, RLVR/reasoning, tool use, evaluation, overoptimization, reward modeling, preference data, policy gradient, PPO, GAE, regularization, bibliography e outros tópicos
- O formato de citação da edição de 2026 é fornecido como
@book{rlhf2026lambert, ... title = {Reinforcement Learning from Human Feedback}, year = {2026}, publisher = {Online}, url = {https://rlhfbook.com}}
Ainda não há comentários.