15 pontos por xguru 2023-02-08 | Ainda não há comentários. | Compartilhar no WhatsApp
  • A métrica mais adequada para julgar o que é <bom> nos resultados gerados pelo modelo são as pontuações de preferência humana
  • Usar o feedback avaliado por pessoas sobre os resultados do modelo como indicador da qualidade do texto gerado e, indo além, projetar uma loss que reflita esse feedback para otimizar o modelo é o RLHF (Reinforcement Learning from Human Feedback)
  • RLHF: passo a passo
    • #1 Treinar um Language Model (pre-training)
    • #2 Coletar dados para treinar o Reward Model e treinar o modelo
    • #3 Fazer o fine-tuning do Language Model por meio de Reinforcement Learning
  • RLHF, pontos a considerar
    • Limitações atuais

Ainda não há comentários.

Ainda não há comentários.