"RLHF é apenas uma pequena parte de RL." - Andrej Karpathy

xguru · 2024-08-09T10:46:01+09:00

Reinforcement Learning from Human Feedback (RLHF) é a terceira (e última) principal etapa do treinamento de LLMs após o pretraining e o supervised finetuning (SFT) Minha visão sobre RLHF é que ele é apenas uma parte de RL, e isso não é amplamente conhecido RLHF na verdade não chega a ser RL (aprendizado por reforço) de verdade Por exemplo, o AlphaGo foi treinado com RL de verdade, e se tivesse sido treinado com RLHF não teria alcançado os resultados atuais O que aconteceria se o AlphaGo fosse treinado com RLHF? Apresentar a avaliadores humanos dois estados do tabuleiro de Go e pedir que escolham qual é melhor Coletar cerca de 100 mil comparações desse tipo e treinar uma rede neural de "Reward Model" (RM, modelo de recompensa) que imita a avaliação humana (Vibe Check) Fazer RL com base nesse modelo de recompensa para aprender movimentos que recebam boas avaliações Mas isso não teria produzido resultados significativos em Go Dois principais motivos pelos quais RLHF não é adequado para o AlphaGo Primeiro, o Vibe pode ser enganoso. Essa recompensa é um objetivo proxy impreciso, e não a recompensa real de vencer a partida Segundo, durante o processo de otimização por RL, há grande chance de a otimização ser distorcida porque o modelo de recompensa atribui pontuações altas a estados anômalos fora da distribuição dos dados de treinamento O RM é uma grande rede neural com bilhões de parâmetros que imita o vibe Problemas ao aplicar RLHF a LLMs O modelo de recompensa de um LLM também tende a dar pontuações altas para respostas que avaliadores humanos provavelmente prefeririam Esse modelo de recompensa não resolve o problema "real", sendo apenas um objetivo proxy que avalia respostas de que humanos provavelmente gostariam Não dá para executar RLHF por tempo demais, porque o modelo aprende rapidamente a responder de maneiras que enganam o modelo de recompensa Você pode ver um assistente LLM começar a responder com coisas estranhas como "The the the the the the" Isso parece engraçado, mas o RM considera isso excelente Ele encontrou um exemplo adversarial em uma região fora da distribuição dos dados de treinamento do RM Por esses motivos, não é possível executar RLHF por muitas etapas de otimização; após algumas centenas ou milhares de etapas, é preciso parar porque a otimização começa a enganar o RM Isso não é RL como no AlphaGo Por que RLHF ainda é útil para construir assistentes LLM RLHF se beneficia da lacuna entre Generator (gerador) e Discriminator (discriminador) Em muitos tipos de problema, é muito mais fácil para um avaliador humano escolher a melhor resposta entre algumas candidatas do que escrever uma resposta ideal do zero Um bom exemplo é um prompt como "gere um poema sobre um clipe", em que é mais fácil escolher um bom poema entre várias opções RLHF é uma forma de se beneficiar dessa lacuna de "facilidade" na supervisão humana Além disso, RLHF também é útil para reduzir alucinações (geração de informações incorretas) Se o RM for forte o bastante para detectar durante o treinamento quando o LLM está inventando algo, ele pode aprender a punir isso com baixa recompensa, ensinando o modelo a não gostar de correr riscos com fatos dos quais não tem certeza Porém, um tratamento satisfatório para alucinações e sua mitigação é um tema completamente diferente Em conclusão, "RLHF é útil, mas não é RL de verdade" Até agora, não há casos convincentes de RL "real" em nível de produção, em grande escala, aplicado e demonstrado com LLMs em domínio aberto Intuitivamente, isso também acontece porque é muito difícil obter uma recompensa real em resolução de problemas de domínio aberto (ou seja, algo como vencer um jogo) Em ambientes fechados e semelhantes a jogos, como Go, onde a dinâmica é limitada e a função de recompensa é fácil de avaliar e impossível de enganar, isso é interessante Por exemplo, como dar uma recompensa objetiva para resumir documentos, responder perguntas um pouco ambíguas, fazer piadas ou reescrever código Java em Python? Em princípio, o caminho até isso não é impossível, mas também não é trivial e exige pensamento criativo Mas quem resolver esse problema de forma convincente poderá executar RL de verdade O tipo de RL que fez o AlphaGo derrotar humanos em Go Quem resolver esse problema poderá criar LLMs que superem humanos em resolução de problemas de domínio aberto

(twitter.com/karpathy)

8 pontos por xguru 2024-08-09 | 1 comentários | Compartilhar no WhatsApp

Reinforcement Learning from Human Feedback (RLHF) é a terceira (e última) principal etapa do treinamento de LLMs após o pretraining e o supervised finetuning (SFT)
- Minha visão sobre RLHF é que ele é apenas uma parte de RL, e isso não é amplamente conhecido
- RLHF na verdade não chega a ser RL (aprendizado por reforço) de verdade
- Por exemplo, o AlphaGo foi treinado com RL de verdade, e se tivesse sido treinado com RLHF não teria alcançado os resultados atuais
O que aconteceria se o AlphaGo fosse treinado com RLHF?
- Apresentar a avaliadores humanos dois estados do tabuleiro de Go e pedir que escolham qual é melhor
- Coletar cerca de 100 mil comparações desse tipo e treinar uma rede neural de "Reward Model" (RM, modelo de recompensa) que imita a avaliação humana (Vibe Check)
- Fazer RL com base nesse modelo de recompensa para aprender movimentos que recebam boas avaliações
- Mas isso não teria produzido resultados significativos em Go
Dois principais motivos pelos quais RLHF não é adequado para o AlphaGo
- Primeiro, o Vibe pode ser enganoso. Essa recompensa é um objetivo proxy impreciso, e não a recompensa real de vencer a partida
- Segundo, durante o processo de otimização por RL, há grande chance de a otimização ser distorcida porque o modelo de recompensa atribui pontuações altas a estados anômalos fora da distribuição dos dados de treinamento
  - O RM é uma grande rede neural com bilhões de parâmetros que imita o vibe
Problemas ao aplicar RLHF a LLMs
- O modelo de recompensa de um LLM também tende a dar pontuações altas para respostas que avaliadores humanos provavelmente prefeririam
  - Esse modelo de recompensa não resolve o problema "real", sendo apenas um objetivo proxy que avalia respostas de que humanos provavelmente gostariam
- Não dá para executar RLHF por tempo demais, porque o modelo aprende rapidamente a responder de maneiras que enganam o modelo de recompensa
- Você pode ver um assistente LLM começar a responder com coisas estranhas como "The the the the the the"
- Isso parece engraçado, mas o RM considera isso excelente
- Ele encontrou um exemplo adversarial em uma região fora da distribuição dos dados de treinamento do RM
- Por esses motivos, não é possível executar RLHF por muitas etapas de otimização; após algumas centenas ou milhares de etapas, é preciso parar porque a otimização começa a enganar o RM
- Isso não é RL como no AlphaGo
Por que RLHF ainda é útil para construir assistentes LLM
- RLHF se beneficia da lacuna entre Generator (gerador) e Discriminator (discriminador)
  - Em muitos tipos de problema, é muito mais fácil para um avaliador humano escolher a melhor resposta entre algumas candidatas do que escrever uma resposta ideal do zero
  - Um bom exemplo é um prompt como "gere um poema sobre um clipe", em que é mais fácil escolher um bom poema entre várias opções
- RLHF é uma forma de se beneficiar dessa lacuna de "facilidade" na supervisão humana
- Além disso, RLHF também é útil para reduzir alucinações (geração de informações incorretas)
  - Se o RM for forte o bastante para detectar durante o treinamento quando o LLM está inventando algo, ele pode aprender a punir isso com baixa recompensa, ensinando o modelo a não gostar de correr riscos com fatos dos quais não tem certeza
  - Porém, um tratamento satisfatório para alucinações e sua mitigação é um tema completamente diferente
Em conclusão, "RLHF é útil, mas não é RL de verdade"
- Até agora, não há casos convincentes de RL "real" em nível de produção, em grande escala, aplicado e demonstrado com LLMs em domínio aberto
- Intuitivamente, isso também acontece porque é muito difícil obter uma recompensa real em resolução de problemas de domínio aberto (ou seja, algo como vencer um jogo)
- Em ambientes fechados e semelhantes a jogos, como Go, onde a dinâmica é limitada e a função de recompensa é fácil de avaliar e impossível de enganar, isso é interessante
- Por exemplo, como dar uma recompensa objetiva para resumir documentos, responder perguntas um pouco ambíguas, fazer piadas ou reescrever código Java em Python?
  - Em princípio, o caminho até isso não é impossível, mas também não é trivial e exige pensamento criativo
  - Mas quem resolver esse problema de forma convincente poderá executar RL de verdade
    - O tipo de RL que fez o AlphaGo derrotar humanos em Go
  - Quem resolver esse problema poderá criar LLMs que superem humanos em resolução de problemas de domínio aberto

1 comentários

xguru 2024-08-09

Comentários do Hacker News

Assistentes de programação com IA devem evoluir muito nos próximos anos
- O Chat AI não tem uma função de recompensa clara, então é difícil julgar a qualidade
- A IA de programação pode executar em loop infinito tarefas como escrever testes, escrever código, compilar e inspecionar casos de teste que falharam
- Esse processo pode ser usado como dados de treinamento para futuros modelos de IA de programação
- Modelos de linguagem também devem mostrar excelente desempenho em provas de teoremas matemáticos
- Softwares de verificação de teoremas fornecem feedback 100% preciso, possibilitando aprendizado por reforço
- A verificação formal da correção de programas é tediosa, mas os LLMs podem mudar isso
- Comentários gerados por LLMs podem ser usados por um motor para provar a correção
Um método DIY barato semelhante ao RLHF é ajustar o modelo para adicionar pontuações à saída
- O RLHF é necessário porque não é possível escrever uma função de perda que produza boas respostas
- O modelo base gera n conclusões para um prompt e elas são pontuadas manualmente
- Depois disso, pares prompt => (conclusão, pontuação) viram o conjunto de treinamento
- Quando o modelo é treinado, incluir a pontuação desejada no prompt faz com que ele tente gerar uma resposta compatível com essa pontuação
O problema de vários algoritmos de ML "trapacearem" a função de recompensa é semelhante a problemas de finanças e economia
- Quando as pessoas tentam ganhar dinheiro sem fazer trabalho produtivo, surgem muitas coisas improdutivas
- Para mitigar isso, é preciso um sistema que puna manipular a função de recompensa
- Esse sistema precisa entender o valor real e identificar casos em que a função de recompensa é alta, mas o valor é baixo
Karpathy entende muito melhor desse tema, mas parece que falta algo nesta postagem
- Go é um jogo complexo demais para humanos resolverem
- O objetivo dos LLMs é imitar humanos perfeitamente
- AlphaGo e Stockfish podem avançar a compreensão de jogos, mas os LLMs não podem expandir os limites da linguagem
- Como os LLMs são essencialmente modelos de imitação, o RLHF faz mais sentido no domínio dos LLMs
Fico curioso sobre qual é a "lacuna" entre os LLMs atuais baseados em transformer e a previsão ótima de sequências
- Os LLMs atuais têm uma função-objetivo simples que minimiza a entropia cruzada da previsão de tokens durante o treinamento
- Solomonoff induction alcança a previsão ótima de sequências
- Fico me perguntando o quanto uma conversa entre SI e GPT4 seria diferente
- AGI precisa de mais do que previsão ótima de sequências
- Uma função-objetivo orientada a humanos maximiza a probabilidade de fornecer respostas que satisfaçam o usuário
- Mas, como há vários usuários, o problema é como agregar isso
- Karpathy está insinuando esse problema
Áreas de prova como LEAN têm estado, ações, medida de progresso e estado final objetivo
- Se Karpathy se concentrar em automatizar provas em LEAN, ele pode mudar a matemática para sempre
AlphaGo não teve feedback humano, mas aprendeu com humanos
- AlphaZero excluiu a influência humana e usou aprendizado por reforço puro
O artigo SPAG é um exemplo de aprendizado por reforço real usando modelos de linguagem
- "Escala" e "domínio aberto" estão ausentes da postagem de Karpathy
- Jogos linguísticos adversariais parecem promissores
A conclusão de que LLM + RL vai superar humanos na resolução de problemas em domínio aberto carece de fundamento

"RLHF é apenas uma pequena parte de RL." - Andrej Karpathy

Leituras relacionadas

1 comentários

Comentários do Hacker News