2 pontos por GN⁺ 2024-09-22 | 1 comentários | Compartilhar no WhatsApp

Aprendizado por reforço para o treinamento de autocorreção de modelos de linguagem

  • Necessidade de autocorreção

    • A capacidade de autocorreção de grandes modelos de linguagem (LLMs) é altamente desejável, mas não é eficaz nos LLMs modernos
    • Métodos existentes de treinamento para autocorreção exigem vários modelos ou um modelo mais capaz, ou ainda outras formas de supervisão
  • Abordagem SCoRe

    • SCoRe é uma abordagem de aprendizado por reforço (RL) online de múltiplos turnos que melhora significativamente a capacidade de autocorreção dos LLMs usando dados totalmente autogerados
    • Para construir o SCoRe, mostra-se que uma variante de ajuste fino supervisionado (SFT) sobre rastros de revisão gerados offline pelo modelo não é suficiente para injetar o comportamento de autocorreção
    • O treinamento via SFT sofre com a incompatibilidade de distribuição entre os dados de treinamento e as próprias respostas do modelo, ou favorece apenas modos específicos de comportamento de correção, o que o torna ineficaz em testes
  • Solução do SCoRe

    • Ajusta o processo de treinamento para que ele ocorra sob a distribuição dos próprios rastros de revisão gerados pelo modelo e, com regularização apropriada, aprenda estratégias de autocorreção eficazes em testes
    • Executa a primeira etapa de RL para gerar uma inicialização da política e usa um bônus de recompensa para amplificar a autocorreção durante o treinamento
  • Resultados de desempenho

    • Quando aplicado aos modelos Gemini 1.0 Pro e 1.5 Flash, o SCoRe alcança melhorias de 15.6% e 9.1% no desempenho de autocorreção nos benchmarks MATH e HumanEval, respectivamente

Resumo do GN⁺

  • Este artigo propõe um método para melhorar significativamente a capacidade de autocorreção de grandes modelos de linguagem por meio de aprendizado por reforço
  • A abordagem SCoRe usa dados autogerados para resolver o problema de incompatibilidade de distribuição do modelo e aprender estratégias de correção eficazes em testes
  • Este estudo mostra ganhos de desempenho especialmente expressivos nos modelos Gemini
  • A capacidade de autocorreção é um elemento importante para aumentar a confiabilidade e a precisão dos modelos de linguagem
  • Um projeto com funcionalidade semelhante é a série GPT da OpenAI

1 comentários

 
GN⁺ 2024-09-22
Comentários do Hacker News
  • Parece uma abordagem semelhante ao modelo o1 da OpenAI

    • O artigo não menciona a divulgação dos pesos
    • Foi difícil de entender porque o artigo não explica o tema diretamente e fica dando voltas
    • Há uma teoria de treinar o comportamento de "autocorreção" para aumentar a taxa de acerto do LLM em problemas difíceis
    • Tentaram treinar esse comportamento usando várias técnicas de aprendizado por reforço, mas não funcionou bem
    • A tese do artigo é que, quando o modelo recebe Answer 1, Reasoning, Corrected Answer e o sinal "melhore o Corrected Answer", há duas maneiras de fazer isso
      • Melhorar Reasoning, Corrected Answer
      • Melhorar Answer 1 para fazer Corrected Answer ficar igual a Answer 1
    • Pesquisas anteriores mostram que a segunda forma era a que ocorria principalmente, e por isso falhava em treinar o comportamento desejado
    • O artigo altera levemente o método de treinamento para induzir o modelo a usar a primeira forma
    • Na primeira etapa, por meio de uma perda de divergência KL, o modelo é forçado a manter a primeira resposta enquanto melhora a segunda resposta
    • Na segunda etapa, ele pode mudar a primeira resposta, mas a função de recompensa é ajustada para dar uma recompensa maior a "flips"
    • Esse método melhora o modelo de forma geral e, ao mesmo tempo, preserva o comportamento de autocorreção
    • Há preocupação de que, na etapa 2, o modelo tente escrever pior a primeira resposta para maximizar a recompensa
  • O LLM não tem memória direta do próprio treinamento

    • As pessoas verificam como/por que sabem algo antes de dizer que sabem
    • Como o LLM não se lembra do treinamento, a autocorreção é difícil
  • Há uma pergunta sobre isso ser uma espécie de destilação de conhecimento

  • Há a opinião de que não é possível eliminar alucinações no paradigma autorregressivo de previsão do próximo token

    • O problema é tentar usar modelos de linguagem como solucionadores determinísticos de problemas
  • Há reclamações sobre especialistas em IA terem popularizado o conceito de "alucinação"

    • Isso faz parecer que a IA passa por um processo profundo de pensamento
    • A IA apenas produz saídas com base em dados
    • Se um endpoint de API JSON devolvesse dados errados, diríamos "essa API está com defeito"
  • Um algoritmo inteligente guiando um previsor não inteligente da próxima palavra ainda é um algoritmo não inteligente

    • Ele classifica lixo com mais elegância, mas ainda é lixo
    • Eu esperava que a abordagem de aprendizado por reforço substituísse a abordagem de transformers, mas isso não passa de um sonho