-
Introdução
- O aprendizado por reforço com feedback humano (RLHF) se tornou uma ferramenta técnica importante para implantar sistemas modernos de aprendizado de máquina.
- Este livro apresenta os métodos centrais de RLHF, com origem na convergência de diversas áreas científicas, como economia, filosofia e controle ótimo.
- Explica conceitos matemáticos gerais usados na literatura, como definições, formulação de problemas e coleta de dados.
-
Otimização e aprendizado por reforço
- Aborda diversos métodos de otimização, como dados de preferência, modelagem de recompensa, regularização, ajuste por instruções, rejection sampling, gradiente de política e algoritmos de alinhamento direto.
-
Tópicos avançados
- Aborda tópicos avançados como IA constitucional e feedback de IA, raciocínio e fine-tuning por reforço, dados sintéticos, avaliação e sobre-otimização.
-
Agradecimentos
- Agradece a Costa Huang e Claude pela ajuda direta no projeto.
- Também agradece aos contribuidores do GitHub.
-
Citação
- Autor: Nathan Lambert
- Título: Reinforcement Learning from Human Feedback
- Ano de publicação: 2024
- Editora: Online
- URL: https://rlhfbook.com
1 comentários
Opiniões no Hacker News
Há uma visão positiva sobre o esforço do autor para preencher a lacuna na documentação pública sobre teoria e prática de RLHF. O estado da arte atual está documentado principalmente em artigos no arXiv, e cada artigo é mais uma "diferença" do que um "instantâneo", então é preciso combinar conhecimento de vários trabalhos anteriores para entender o estado atual. É muito valioso transformar o estado da arte atual em um "instantâneo" fácil de consultar
O próprio autor menciona que o material ainda está em andamento e que correções ou sugestões são bem-vindas no GitHub
É mencionado que a citação "Aprendizado por reforço com feedback humano foi projetado para otimizar modelos de aprendizado de máquina em domínios nos quais é difícil projetar uma função de recompensa" é útil
Ao entender a definição de RLHF, parece algo como "aprender aquilo que dizemos ser importante". Há uma expressão de grande expectativa em relação ao futuro
São compartilhados outros materiais úteis sobre RLHF
É mencionado que seria necessária uma versão epub deste material
"Reinforcement Learning: An Overview", de Kevin Murphy, oferece uma visão geral atualizada da área de aprendizado por reforço (profundo) e de tomada de decisão sequencial, cobrindo RL baseado em valor, métodos de gradiente de política, métodos baseados em modelo e outros
Surge uma pergunta sobre a diferença entre RLHF e destilação