-
Como comportamentos cognitivos tornam possíveis raciocinadores autoaperfeiçoáveis, ou os quatro hábitos de STaRs muito eficazes
-
Raciocínio em tempo de teste: é um paradigma poderoso que permite a modelos de linguagem pensar por mais tempo e com mais cuidado sobre problemas complexos. O aprendizado por reforço (RL) pode promover o autoaperfeiçoamento de modelos de linguagem em tarefas verificáveis, mas alguns modelos mostram desempenho substancial enquanto outros rapidamente estagnam. Por exemplo, o Qwen-2.5-3B supera amplamente o Llama-3.2-3B sob o mesmo treinamento de RL.
-
Propriedades intrínsecas: surge a questão sobre quais propriedades intrínsecas permitem um autoaperfeiçoamento eficaz. Para investigar isso, é introduzido um framework que analisa quatro comportamentos cognitivos principais: verificação, backtracking, definição de subobjetivos e encadeamento reverso. Esses comportamentos são usados por solucionadores de problemas humanos especialistas e por modelos de linguagem bem-sucedidos.
-
Resultados experimentais: o Qwen naturalmente exibe esses comportamentos de raciocínio, enquanto o Llama inicialmente carece deles. Em experimentos sistemáticos com um conjunto de dados comportamental controlado, foi constatado que preparar o Llama com exemplos que incluam esses comportamentos de raciocínio leva a melhorias significativas durante o RL, igualando ou superando o desempenho do Qwen.
-
Importância dos comportamentos de raciocínio: mais importante do que a exatidão da resposta correta é a presença dos comportamentos de raciocínio. Um modelo preparado com soluções incorretas, mas contendo os padrões corretos de raciocínio, alcança desempenho semelhante ao de um modelo treinado com soluções corretas.
-
Pré-treinamento contínuo: usando dados do OpenWebMath com filtragem para amplificar comportamentos de raciocínio, torna-se possível fazer com que o modelo Llama siga a trajetória de autoaperfeiçoamento do Qwen. Isso estabelece uma relação fundamental entre comportamentos iniciais de raciocínio e capacidade de melhoria, explicando por que alguns modelos de linguagem conseguem aproveitar computação adicional de forma eficaz.
Ainda não há comentários.