- A métrica mais adequada para julgar o que é <bom> nos resultados gerados pelo modelo são as pontuações de preferência humana
- Usar o feedback avaliado por pessoas sobre os resultados do modelo como indicador da qualidade do texto gerado e, indo além, projetar uma loss que reflita esse feedback para otimizar o modelo é o RLHF (Reinforcement Learning from Human Feedback)
- RLHF: passo a passo
- #1 Treinar um Language Model (pre-training)
- #2 Coletar dados para treinar o Reward Model e treinar o modelo
- #3 Fazer o fine-tuning do Language Model por meio de Reinforcement Learning
- RLHF, pontos a considerar
Ainda não há comentários.