8 pontos por xguru 2024-08-09 | 1 comentários | Compartilhar no WhatsApp
  • Reinforcement Learning from Human Feedback (RLHF) é a terceira (e última) principal etapa do treinamento de LLMs após o pretraining e o supervised finetuning (SFT)
    • Minha visão sobre RLHF é que ele é apenas uma parte de RL, e isso não é amplamente conhecido
    • RLHF na verdade não chega a ser RL (aprendizado por reforço) de verdade
    • Por exemplo, o AlphaGo foi treinado com RL de verdade, e se tivesse sido treinado com RLHF não teria alcançado os resultados atuais
  • O que aconteceria se o AlphaGo fosse treinado com RLHF?
    • Apresentar a avaliadores humanos dois estados do tabuleiro de Go e pedir que escolham qual é melhor
    • Coletar cerca de 100 mil comparações desse tipo e treinar uma rede neural de "Reward Model" (RM, modelo de recompensa) que imita a avaliação humana (Vibe Check)
    • Fazer RL com base nesse modelo de recompensa para aprender movimentos que recebam boas avaliações
    • Mas isso não teria produzido resultados significativos em Go
  • Dois principais motivos pelos quais RLHF não é adequado para o AlphaGo
    • Primeiro, o Vibe pode ser enganoso. Essa recompensa é um objetivo proxy impreciso, e não a recompensa real de vencer a partida
    • Segundo, durante o processo de otimização por RL, há grande chance de a otimização ser distorcida porque o modelo de recompensa atribui pontuações altas a estados anômalos fora da distribuição dos dados de treinamento
      • O RM é uma grande rede neural com bilhões de parâmetros que imita o vibe
  • Problemas ao aplicar RLHF a LLMs
    • O modelo de recompensa de um LLM também tende a dar pontuações altas para respostas que avaliadores humanos provavelmente prefeririam
      • Esse modelo de recompensa não resolve o problema "real", sendo apenas um objetivo proxy que avalia respostas de que humanos provavelmente gostariam
    • Não dá para executar RLHF por tempo demais, porque o modelo aprende rapidamente a responder de maneiras que enganam o modelo de recompensa
    • Você pode ver um assistente LLM começar a responder com coisas estranhas como "The the the the the the"
    • Isso parece engraçado, mas o RM considera isso excelente
    • Ele encontrou um exemplo adversarial em uma região fora da distribuição dos dados de treinamento do RM
    • Por esses motivos, não é possível executar RLHF por muitas etapas de otimização; após algumas centenas ou milhares de etapas, é preciso parar porque a otimização começa a enganar o RM
    • Isso não é RL como no AlphaGo
  • Por que RLHF ainda é útil para construir assistentes LLM
    • RLHF se beneficia da lacuna entre Generator (gerador) e Discriminator (discriminador)
      • Em muitos tipos de problema, é muito mais fácil para um avaliador humano escolher a melhor resposta entre algumas candidatas do que escrever uma resposta ideal do zero
      • Um bom exemplo é um prompt como "gere um poema sobre um clipe", em que é mais fácil escolher um bom poema entre várias opções
    • RLHF é uma forma de se beneficiar dessa lacuna de "facilidade" na supervisão humana
    • Além disso, RLHF também é útil para reduzir alucinações (geração de informações incorretas)
      • Se o RM for forte o bastante para detectar durante o treinamento quando o LLM está inventando algo, ele pode aprender a punir isso com baixa recompensa, ensinando o modelo a não gostar de correr riscos com fatos dos quais não tem certeza
      • Porém, um tratamento satisfatório para alucinações e sua mitigação é um tema completamente diferente
  • Em conclusão, "RLHF é útil, mas não é RL de verdade"
    • Até agora, não há casos convincentes de RL "real" em nível de produção, em grande escala, aplicado e demonstrado com LLMs em domínio aberto
    • Intuitivamente, isso também acontece porque é muito difícil obter uma recompensa real em resolução de problemas de domínio aberto (ou seja, algo como vencer um jogo)
    • Em ambientes fechados e semelhantes a jogos, como Go, onde a dinâmica é limitada e a função de recompensa é fácil de avaliar e impossível de enganar, isso é interessante
    • Por exemplo, como dar uma recompensa objetiva para resumir documentos, responder perguntas um pouco ambíguas, fazer piadas ou reescrever código Java em Python?
      • Em princípio, o caminho até isso não é impossível, mas também não é trivial e exige pensamento criativo
      • Mas quem resolver esse problema de forma convincente poderá executar RL de verdade
        • O tipo de RL que fez o AlphaGo derrotar humanos em Go
      • Quem resolver esse problema poderá criar LLMs que superem humanos em resolução de problemas de domínio aberto

1 comentários

 
xguru 2024-08-09

Comentários do Hacker News

  • Assistentes de programação com IA devem evoluir muito nos próximos anos

    • O Chat AI não tem uma função de recompensa clara, então é difícil julgar a qualidade
    • A IA de programação pode executar em loop infinito tarefas como escrever testes, escrever código, compilar e inspecionar casos de teste que falharam
    • Esse processo pode ser usado como dados de treinamento para futuros modelos de IA de programação
    • Modelos de linguagem também devem mostrar excelente desempenho em provas de teoremas matemáticos
    • Softwares de verificação de teoremas fornecem feedback 100% preciso, possibilitando aprendizado por reforço
    • A verificação formal da correção de programas é tediosa, mas os LLMs podem mudar isso
    • Comentários gerados por LLMs podem ser usados por um motor para provar a correção
  • Um método DIY barato semelhante ao RLHF é ajustar o modelo para adicionar pontuações à saída

    • O RLHF é necessário porque não é possível escrever uma função de perda que produza boas respostas
    • O modelo base gera n conclusões para um prompt e elas são pontuadas manualmente
    • Depois disso, pares prompt => (conclusão, pontuação) viram o conjunto de treinamento
    • Quando o modelo é treinado, incluir a pontuação desejada no prompt faz com que ele tente gerar uma resposta compatível com essa pontuação
  • O problema de vários algoritmos de ML "trapacearem" a função de recompensa é semelhante a problemas de finanças e economia

    • Quando as pessoas tentam ganhar dinheiro sem fazer trabalho produtivo, surgem muitas coisas improdutivas
    • Para mitigar isso, é preciso um sistema que puna manipular a função de recompensa
    • Esse sistema precisa entender o valor real e identificar casos em que a função de recompensa é alta, mas o valor é baixo
  • Karpathy entende muito melhor desse tema, mas parece que falta algo nesta postagem

    • Go é um jogo complexo demais para humanos resolverem
    • O objetivo dos LLMs é imitar humanos perfeitamente
    • AlphaGo e Stockfish podem avançar a compreensão de jogos, mas os LLMs não podem expandir os limites da linguagem
    • Como os LLMs são essencialmente modelos de imitação, o RLHF faz mais sentido no domínio dos LLMs
  • Fico curioso sobre qual é a "lacuna" entre os LLMs atuais baseados em transformer e a previsão ótima de sequências

    • Os LLMs atuais têm uma função-objetivo simples que minimiza a entropia cruzada da previsão de tokens durante o treinamento
    • Solomonoff induction alcança a previsão ótima de sequências
    • Fico me perguntando o quanto uma conversa entre SI e GPT4 seria diferente
    • AGI precisa de mais do que previsão ótima de sequências
    • Uma função-objetivo orientada a humanos maximiza a probabilidade de fornecer respostas que satisfaçam o usuário
    • Mas, como há vários usuários, o problema é como agregar isso
    • Karpathy está insinuando esse problema
  • Áreas de prova como LEAN têm estado, ações, medida de progresso e estado final objetivo

    • Se Karpathy se concentrar em automatizar provas em LEAN, ele pode mudar a matemática para sempre
  • AlphaGo não teve feedback humano, mas aprendeu com humanos

    • AlphaZero excluiu a influência humana e usou aprendizado por reforço puro
  • O artigo SPAG é um exemplo de aprendizado por reforço real usando modelos de linguagem

    • "Escala" e "domínio aberto" estão ausentes da postagem de Karpathy
    • Jogos linguísticos adversariais parecem promissores
  • A conclusão de que LLM + RL vai superar humanos na resolução de problemas em domínio aberto carece de fundamento