2 pontos por GN⁺ 2025-03-08 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Como comportamentos cognitivos tornam possíveis raciocinadores autoaperfeiçoáveis, ou os quatro hábitos de STaRs muito eficazes

  • Raciocínio em tempo de teste: é um paradigma poderoso que permite a modelos de linguagem pensar por mais tempo e com mais cuidado sobre problemas complexos. O aprendizado por reforço (RL) pode promover o autoaperfeiçoamento de modelos de linguagem em tarefas verificáveis, mas alguns modelos mostram desempenho substancial enquanto outros rapidamente estagnam. Por exemplo, o Qwen-2.5-3B supera amplamente o Llama-3.2-3B sob o mesmo treinamento de RL.

  • Propriedades intrínsecas: surge a questão sobre quais propriedades intrínsecas permitem um autoaperfeiçoamento eficaz. Para investigar isso, é introduzido um framework que analisa quatro comportamentos cognitivos principais: verificação, backtracking, definição de subobjetivos e encadeamento reverso. Esses comportamentos são usados por solucionadores de problemas humanos especialistas e por modelos de linguagem bem-sucedidos.

  • Resultados experimentais: o Qwen naturalmente exibe esses comportamentos de raciocínio, enquanto o Llama inicialmente carece deles. Em experimentos sistemáticos com um conjunto de dados comportamental controlado, foi constatado que preparar o Llama com exemplos que incluam esses comportamentos de raciocínio leva a melhorias significativas durante o RL, igualando ou superando o desempenho do Qwen.

  • Importância dos comportamentos de raciocínio: mais importante do que a exatidão da resposta correta é a presença dos comportamentos de raciocínio. Um modelo preparado com soluções incorretas, mas contendo os padrões corretos de raciocínio, alcança desempenho semelhante ao de um modelo treinado com soluções corretas.

  • Pré-treinamento contínuo: usando dados do OpenWebMath com filtragem para amplificar comportamentos de raciocínio, torna-se possível fazer com que o modelo Llama siga a trajetória de autoaperfeiçoamento do Qwen. Isso estabelece uma relação fundamental entre comportamentos iniciais de raciocínio e capacidade de melhoria, explicando por que alguns modelos de linguagem conseguem aproveitar computação adicional de forma eficaz.

Ainda não há comentários.

Ainda não há comentários.