Como o ChatGPT foi treinado - RLHF

xguru · 2023-02-08T10:42:16+09:00

A métrica mais adequada para julgar o que é nos resultados gerados pelo modelo são as pontuações de preferência humana Usar o feedback avaliado por pessoas sobre os resultados do modelo como indicador da qualidade do texto gerado e, indo além, projetar uma loss que reflita esse feedback para otimizar o modelo é o RLHF (Reinforcement Learning from Human Feedback) RLHF: passo a passo #1 Treinar um Language Model (pre-training) #2 Coletar dados para treinar o Reward Model e treinar o modelo #3 Fazer o fine-tuning do Language Model por meio de Reinforcement Learning RLHF, pontos a considerar Limitações atuais

(littlefoxdiary.tistory.com)

15 pontos por xguru 2023-02-08 | Ainda não há comentários. | Compartilhar no WhatsApp

A métrica mais adequada para julgar o que é <bom> nos resultados gerados pelo modelo são as pontuações de preferência humana
Usar o feedback avaliado por pessoas sobre os resultados do modelo como indicador da qualidade do texto gerado e, indo além, projetar uma loss que reflita esse feedback para otimizar o modelo é o RLHF (Reinforcement Learning from Human Feedback)
RLHF: passo a passo
- #1 Treinar um Language Model (pre-training)
- #2 Coletar dados para treinar o Reward Model e treinar o modelo
- #3 Fazer o fine-tuning do Language Model por meio de Reinforcement Learning
RLHF, pontos a considerar
- Limitações atuais

Como o ChatGPT foi treinado - RLHF

Leituras relacionadas

Ainda não há comentários.