- Reinforcement Learning from Human Feedback (RLHF) é a terceira (e última) principal etapa do treinamento de LLMs após o pretraining e o supervised finetuning (SFT)
- Minha visão sobre RLHF é que ele é apenas uma parte de RL, e isso não é amplamente conhecido
- RLHF na verdade não chega a ser RL (aprendizado por reforço) de verdade
- Por exemplo, o AlphaGo foi treinado com RL de verdade, e se tivesse sido treinado com RLHF não teria alcançado os resultados atuais
- O que aconteceria se o AlphaGo fosse treinado com RLHF?
- Apresentar a avaliadores humanos dois estados do tabuleiro de Go e pedir que escolham qual é melhor
- Coletar cerca de 100 mil comparações desse tipo e treinar uma rede neural de "Reward Model" (RM, modelo de recompensa) que imita a avaliação humana (Vibe Check)
- Fazer RL com base nesse modelo de recompensa para aprender movimentos que recebam boas avaliações
- Mas isso não teria produzido resultados significativos em Go
- Dois principais motivos pelos quais RLHF não é adequado para o AlphaGo
- Primeiro, o Vibe pode ser enganoso. Essa recompensa é um objetivo proxy impreciso, e não a recompensa real de vencer a partida
- Segundo, durante o processo de otimização por RL, há grande chance de a otimização ser distorcida porque o modelo de recompensa atribui pontuações altas a estados anômalos fora da distribuição dos dados de treinamento
- O RM é uma grande rede neural com bilhões de parâmetros que imita o vibe
- Problemas ao aplicar RLHF a LLMs
- O modelo de recompensa de um LLM também tende a dar pontuações altas para respostas que avaliadores humanos provavelmente prefeririam
- Esse modelo de recompensa não resolve o problema "real", sendo apenas um objetivo proxy que avalia respostas de que humanos provavelmente gostariam
- Não dá para executar RLHF por tempo demais, porque o modelo aprende rapidamente a responder de maneiras que enganam o modelo de recompensa
- Você pode ver um assistente LLM começar a responder com coisas estranhas como "The the the the the the"
- Isso parece engraçado, mas o RM considera isso excelente
- Ele encontrou um exemplo adversarial em uma região fora da distribuição dos dados de treinamento do RM
- Por esses motivos, não é possível executar RLHF por muitas etapas de otimização; após algumas centenas ou milhares de etapas, é preciso parar porque a otimização começa a enganar o RM
- Isso não é RL como no AlphaGo
- Por que RLHF ainda é útil para construir assistentes LLM
- RLHF se beneficia da lacuna entre Generator (gerador) e Discriminator (discriminador)
- Em muitos tipos de problema, é muito mais fácil para um avaliador humano escolher a melhor resposta entre algumas candidatas do que escrever uma resposta ideal do zero
- Um bom exemplo é um prompt como "gere um poema sobre um clipe", em que é mais fácil escolher um bom poema entre várias opções
- RLHF é uma forma de se beneficiar dessa lacuna de "facilidade" na supervisão humana
- Além disso, RLHF também é útil para reduzir alucinações (geração de informações incorretas)
- Se o RM for forte o bastante para detectar durante o treinamento quando o LLM está inventando algo, ele pode aprender a punir isso com baixa recompensa, ensinando o modelo a não gostar de correr riscos com fatos dos quais não tem certeza
- Porém, um tratamento satisfatório para alucinações e sua mitigação é um tema completamente diferente
- Em conclusão, "RLHF é útil, mas não é RL de verdade"
- Até agora, não há casos convincentes de RL "real" em nível de produção, em grande escala, aplicado e demonstrado com LLMs em domínio aberto
- Intuitivamente, isso também acontece porque é muito difícil obter uma recompensa real em resolução de problemas de domínio aberto (ou seja, algo como vencer um jogo)
- Em ambientes fechados e semelhantes a jogos, como Go, onde a dinâmica é limitada e a função de recompensa é fácil de avaliar e impossível de enganar, isso é interessante
- Por exemplo, como dar uma recompensa objetiva para resumir documentos, responder perguntas um pouco ambíguas, fazer piadas ou reescrever código Java em Python?
- Em princípio, o caminho até isso não é impossível, mas também não é trivial e exige pensamento criativo
- Mas quem resolver esse problema de forma convincente poderá executar RL de verdade
- O tipo de RL que fez o AlphaGo derrotar humanos em Go
- Quem resolver esse problema poderá criar LLMs que superem humanos em resolução de problemas de domínio aberto
1 comentários
Comentários do Hacker News
Assistentes de programação com IA devem evoluir muito nos próximos anos
Um método DIY barato semelhante ao RLHF é ajustar o modelo para adicionar pontuações à saída
O problema de vários algoritmos de ML "trapacearem" a função de recompensa é semelhante a problemas de finanças e economia
Karpathy entende muito melhor desse tema, mas parece que falta algo nesta postagem
Fico curioso sobre qual é a "lacuna" entre os LLMs atuais baseados em transformer e a previsão ótima de sequências
Áreas de prova como LEAN têm estado, ações, medida de progresso e estado final objetivo
AlphaGo não teve feedback humano, mas aprendeu com humanos
O artigo SPAG é um exemplo de aprendizado por reforço real usando modelos de linguagem
A conclusão de que LLM + RL vai superar humanos na resolução de problemas em domínio aberto carece de fundamento