Aprendizado por reforço para o treinamento de autocorreção de modelos de linguagem
-
Necessidade de autocorreção
- A capacidade de autocorreção de grandes modelos de linguagem (LLMs) é altamente desejável, mas não é eficaz nos LLMs modernos
- Métodos existentes de treinamento para autocorreção exigem vários modelos ou um modelo mais capaz, ou ainda outras formas de supervisão
-
Abordagem SCoRe
- SCoRe é uma abordagem de aprendizado por reforço (RL) online de múltiplos turnos que melhora significativamente a capacidade de autocorreção dos LLMs usando dados totalmente autogerados
- Para construir o SCoRe, mostra-se que uma variante de ajuste fino supervisionado (SFT) sobre rastros de revisão gerados offline pelo modelo não é suficiente para injetar o comportamento de autocorreção
- O treinamento via SFT sofre com a incompatibilidade de distribuição entre os dados de treinamento e as próprias respostas do modelo, ou favorece apenas modos específicos de comportamento de correção, o que o torna ineficaz em testes
-
Solução do SCoRe
- Ajusta o processo de treinamento para que ele ocorra sob a distribuição dos próprios rastros de revisão gerados pelo modelo e, com regularização apropriada, aprenda estratégias de autocorreção eficazes em testes
- Executa a primeira etapa de RL para gerar uma inicialização da política e usa um bônus de recompensa para amplificar a autocorreção durante o treinamento
-
Resultados de desempenho
- Quando aplicado aos modelos Gemini 1.0 Pro e 1.5 Flash, o SCoRe alcança melhorias de 15.6% e 9.1% no desempenho de autocorreção nos benchmarks MATH e HumanEval, respectivamente
Resumo do GN⁺
- Este artigo propõe um método para melhorar significativamente a capacidade de autocorreção de grandes modelos de linguagem por meio de aprendizado por reforço
- A abordagem SCoRe usa dados autogerados para resolver o problema de incompatibilidade de distribuição do modelo e aprender estratégias de correção eficazes em testes
- Este estudo mostra ganhos de desempenho especialmente expressivos nos modelos Gemini
- A capacidade de autocorreção é um elemento importante para aumentar a confiabilidade e a precisão dos modelos de linguagem
- Um projeto com funcionalidade semelhante é a série GPT da OpenAI
1 comentários
Comentários do Hacker News
Parece uma abordagem semelhante ao modelo o1 da OpenAI
Answer 1, Reasoning, Corrected Answere o sinal "melhore o Corrected Answer", há duas maneiras de fazer issoReasoning, Corrected AnswerAnswer 1para fazerCorrected Answerficar igual aAnswer 1O LLM não tem memória direta do próprio treinamento
Há uma pergunta sobre isso ser uma espécie de destilação de conhecimento
Há a opinião de que não é possível eliminar alucinações no paradigma autorregressivo de previsão do próximo token
Há reclamações sobre especialistas em IA terem popularizado o conceito de "alucinação"
Um algoritmo inteligente guiando um previsor não inteligente da próxima palavra ainda é um algoritmo não inteligente