4 pontos por GN⁺ 2025-02-03 | 1 comentários | Compartilhar no WhatsApp
  • Introdução

    • O aprendizado por reforço com feedback humano (RLHF) se tornou uma ferramenta técnica importante para implantar sistemas modernos de aprendizado de máquina.
    • Este livro apresenta os métodos centrais de RLHF, com origem na convergência de diversas áreas científicas, como economia, filosofia e controle ótimo.
    • Explica conceitos matemáticos gerais usados na literatura, como definições, formulação de problemas e coleta de dados.
  • Otimização e aprendizado por reforço

    • Aborda diversos métodos de otimização, como dados de preferência, modelagem de recompensa, regularização, ajuste por instruções, rejection sampling, gradiente de política e algoritmos de alinhamento direto.
  • Tópicos avançados

    • Aborda tópicos avançados como IA constitucional e feedback de IA, raciocínio e fine-tuning por reforço, dados sintéticos, avaliação e sobre-otimização.
  • Agradecimentos

    • Agradece a Costa Huang e Claude pela ajuda direta no projeto.
    • Também agradece aos contribuidores do GitHub.
  • Citação

    • Autor: Nathan Lambert
    • Título: Reinforcement Learning from Human Feedback
    • Ano de publicação: 2024
    • Editora: Online
    • URL: https://rlhfbook.com

1 comentários

 
GN⁺ 2025-02-03
Opiniões no Hacker News
  • Há uma visão positiva sobre o esforço do autor para preencher a lacuna na documentação pública sobre teoria e prática de RLHF. O estado da arte atual está documentado principalmente em artigos no arXiv, e cada artigo é mais uma "diferença" do que um "instantâneo", então é preciso combinar conhecimento de vários trabalhos anteriores para entender o estado atual. É muito valioso transformar o estado da arte atual em um "instantâneo" fácil de consultar

    • Acho que são necessários mais materiais introdutórios que comparem RLHF e SFT para ajudar a definir a motivação e as expectativas em relação ao RLHF
    • Vantagens do RLHF: permite ajustar a geração completa, pode ser ajustado para problemas com várias respostas aceitáveis e pode incorporar feedback negativo
    • Desvantagens do RLHF: a regularização limita o impacto no modelo, ele é muito sensível à qualidade do modelo de recompensa e consome muitos recursos e tempo
    • Considerações práticas: é necessário entender como avaliar a qualidade e como a engenharia de prompt interage com o fine-tuning
  • O próprio autor menciona que o material ainda está em andamento e que correções ou sugestões são bem-vindas no GitHub

  • É mencionado que a citação "Aprendizado por reforço com feedback humano foi projetado para otimizar modelos de aprendizado de máquina em domínios nos quais é difícil projetar uma função de recompensa" é útil

  • Ao entender a definição de RLHF, parece algo como "aprender aquilo que dizemos ser importante". Há uma expressão de grande expectativa em relação ao futuro

  • São compartilhados outros materiais úteis sobre RLHF

  • É mencionado que seria necessária uma versão epub deste material

  • "Reinforcement Learning: An Overview", de Kevin Murphy, oferece uma visão geral atualizada da área de aprendizado por reforço (profundo) e de tomada de decisão sequencial, cobrindo RL baseado em valor, métodos de gradiente de política, métodos baseados em modelo e outros

  • Surge uma pergunta sobre a diferença entre RLHF e destilação