Comportamentos cognitivos que viabilizam raciocinadores autoaperfeiçoáveis

(arxiv.org)

2 pontos por GN⁺ 2025-03-08 | 1 comentários | Compartilhar no WhatsApp

Ao autoaperfeiçoar modelos de linguagem com aprendizado por reforço em problemas verificáveis, mesmo sob as mesmas condições, o Qwen-2.5-3B melhora muito no Countdown, enquanto o Llama-3.2-3B estagna rapidamente
A diferença de desempenho está ligada a comportamentos de raciocínio que o modelo inicial já possuía, como verificação, backtracking, definição de subobjetivos e encadeamento reverso
O Qwen já mostrava verificação e backtracking de forma mais natural desde o início, enquanto o Llama tinha pouca presença desses comportamentos e por isso tinha dificuldade para usar de forma eficiente o maior orçamento computacional em tempo de teste
Se o Llama for estimulado com traços sintéticos de raciocínio que incluam padrões de raciocínio, e não apenas se a resposta está certa, ele passa a mostrar durante o aprendizado por reforço uma trajetória de melhora comparável à do Qwen
O pré-treinamento contínuo com OpenWebMath filtrado também induz no Llama a distribuição de comportamentos necessária, mostrando que projetar hábitos iniciais de raciocínio afeta diretamente o desempenho de autoaperfeiçoamento

A capacidade de autoaperfeiçoamento se divide mesmo sob o mesmo aprendizado por reforço

A inferência em tempo de teste (test-time inference) é usada como uma forma de fazer o modelo de linguagem “pensar” por mais tempo e com mais cuidado em problemas complexos
A abordagem de autoaperfeiçoar modelos aplicando aprendizado por reforço (RL) a problemas verificáveis não é nova, mas métodos anteriores estagnavam após algumas iterações e não exploravam suficientemente como usar de forma eficaz o orçamento computacional em tempo de teste
Quando o mesmo procedimento de aprendizado por reforço foi aplicado ao jogo Countdown, surgiu uma grande diferença entre dois modelos de 3B
- Qwen-2.5-3B teve grande melhora na capacidade de resolver problemas
- Llama-3.2-3B ficou limitado a uma melhora restrita
A questão central é quais propriedades do modelo de linguagem inicial determinam a possibilidade de melhora posterior
O código está disponível no repositório no GitHub

Quatro comportamentos de raciocínio que ajudam o autoaperfeiçoamento

O foco da análise são quatro comportamentos cognitivos que podem ser identificados com clareza nas saídas do modelo
- Verificação (verification): checar de forma sistemática a resposta ou etapas intermediárias
- Backtracking (backtracking): abandonar uma abordagem que falhou e voltar para outra alternativa
- Definição de subobjetivos (subgoal setting): dividir o problema em etapas administráveis
- Encadeamento reverso (backward chaining): partir do resultado desejado e raciocinar de volta até a entrada inicial
Esses comportamentos se parecem com formas de resolução de problemas de humanos experientes
- Matemáticos verificam cada etapa de uma prova
- Quando encontram uma contradição, fazem backtracking
- Dividem teoremas complexos em lemas auxiliares mais simples
Os quatro comportamentos vão além do raciocínio linear típico de modelos de linguagem e capturam um raciocínio que explora e corrige múltiplos caminhos
Existem outros comportamentos cognitivos, mas esses quatro têm definição clara e podem ser identificados com relativa facilidade nas saídas do modelo

Diferenças iniciais de comportamento entre Qwen e Llama

Na análise inicial, o Qwen mostrou com mais naturalidade os comportamentos de raciocínio necessários
- Em especial, verificação e backtracking se destacaram
O Llama tinha pouca presença desses comportamentos em seu estado inicial
Foi proposta a hipótese de que certos comportamentos de raciocínio precisam existir na política inicial para aproveitar de forma eficiente sequências longas de raciocínio e o maior orçamento computacional em tempo de teste
A Figure 1 compara no Countdown o desempenho dos dois modelos, a mudança no comprimento das respostas durante o aprendizado por reforço e o padrão de aparecimento de características específicas de raciocínio

Priming de comportamento: padrões de raciocínio acima da resposta correta

A primeira intervenção foi estimular o Llama com traços sintéticos de raciocínio contendo os comportamentos desejados
Depois de ver esses exemplos, o Llama melhora bastante com aprendizado por reforço e alcança um nível comparável à trajetória de desempenho do Qwen
Em especial, traços de raciocínio com backtracking têm papel importante
Mesmo quando estimulado com soluções sem resposta correta, desde que incluam o padrão de raciocínio adequado, aparece melhora de desempenho semelhante
Neste experimento, o fator que separou o desempenho não foi a resposta correta em si, mas sim a presença de comportamentos de raciocínio

Mudar a distribuição de comportamentos com pré-treinamento contínuo

O pré-treinamento contínuo com dados do OpenWebMath também foi testado
Os dados foram filtrados para destacar com mais força os comportamentos de raciocínio
Os dados filtrados foram reorganizados no formato Query, Thought, Answer
Ao treinar o Llama dessa forma, os padrões de comportamento necessários são induzidos, e ele consegue usar com mais eficiência o orçamento computacional em tempo de teste
Como resultado, a trajetória de melhora do Llama passa a um nível comparável ao do Qwen

Hábitos iniciais de raciocínio determinam a capacidade de melhora

Há uma forte relação entre os comportamentos iniciais de raciocínio do modelo e sua capacidade de autoaperfeiçoamento
A diferença entre Qwen e Llama mostra que, mesmo sob o mesmo procedimento de aprendizado por reforço, os resultados podem mudar conforme os padrões iniciais de comportamento
Modelos com comportamentos de raciocínio adequados conseguem usar computação adicional para realizar raciocínios mais longos de forma eficaz
Modelos sem esses comportamentos podem estagnar rapidamente mesmo sob as mesmas condições de treinamento
Entender e induzir comportamentos iniciais de raciocínio está diretamente ligado ao desenvolvimento de sistemas de IA que realmente melhorem a capacidade de resolver problemas

1 comentários

GN⁺ 2025-03-08

Opiniões no Hacker News

Achei interessante o trecho sobre “quatro comportamentos cognitivos centrais usados tanto por especialistas humanos em resolução de problemas quanto por modelos de linguagem bem-sucedidos — verificação, retrocesso, definição de subobjetivos e raciocínio reverso”
Ao melhorar a IA, talvez a gente acabe encontrando, sem querer, maneiras de melhorar também a inteligência humana
Recentemente, enquanto estudava para uma prova, tive uma experiência pessoal parecida: ao ler exercícios, eu falava em voz alta imitando o modo de raciocínio e a personalidade do Deepseek R1
Depois de ler muitas saídas longas e detalhadas do R1, meu cérebro acabou, na prática, sendo ajustado finamente para tarefas de raciocínio, e acho que esse método contribuiu para eu tirar uma boa nota na prova
- Isso é uma técnica bem conhecida. Verbalizar o processo de pensamento, seja falando em voz alta ou escrevendo, é uma estratégia antiga para verificar se você está de fato pensando, em vez de passar por cima das coisas de qualquer jeito
  Ironicamente, já vi pessoas preocupadas que o uso de IA vá tirar essa capacidade das pessoas
  Ainda assim, há potencial aqui, e espero sinceramente que, ao pesquisar IA, também encontremos formas de melhorar a inteligência humana
  Mesmo numa visão pessimista, isso ao menos deve revelar abordagens que as pessoas usam inconscientemente; quando você sabe o que está fazendo, fica muito mais fácil treinar isso melhor
- Eu também uso esse método em problemas de programação que, em circunstâncias normais, eu teria procrastinado e jogado para o inconsciente
  Escrever de fato todas as etapas do pensamento ajuda a organizar passos de raciocínio incorretos ou voltas em falso causados pela limitação da memória de trabalho
  Depois de ver como IAs baseadas em raciocínio pensam, comecei a fazer isso de forma mais rigorosa, e pareceu uma técnica de pensamento bem útil
  Esses modelos de IA de raciocínio me permitem observar meu próprio pensamento em um nível meta e mostram ferramentas que posso usar para melhorá-lo
  Fico feliz de não ser só eu que sinto isso
- Pensar em voz alta é uma prática antiga, como o “debugging do patinho de borracha” feito consigo mesmo
  Como alguém que vem de uma longa linhagem ancestral de gente que fala sozinha ao resolver problemas, isso às vezes foi uma pequena desvantagem em provas com fiscal. O monólogo interno e a fala de verdade são bem diferentes
- Cientistas da computação fazendo cosplay de cientistas cognitivos, aparentemente sem nunca terem feito uma aula de psicologia
- Essas quatro coisas soam como um único algoritmo cognitivo integrado. Você divide o problema em subobjetivos para criar uma ontologia, verifica corretamente o trabalho, pensa de trás para frente para depurar erros e tentar de novo, e raciocina em sentido inverso a partir do resultado
  No fim, é um algoritmo para resolver problemas difíceis, uma habilidade que pode ser praticada e que vai se acumulando por si mesma à medida que você a domina
A esta altura, só pelo título já não dá para saber se é uma moda de psicologia de autoajuda ou um artigo sobre LLM
- Logo vai aparecer um LLM que raciocina só a partir dos primeiros princípios de The Subtle Art of Not Giving a Fuck
Até que ponto o conhecimento sobre técnicas de treinamento de IA ajudou a encontrar maneiras de treinar pessoas a pensar melhor?
- Já tínhamos conhecimento sobre como comer para evitar situações extremas como obesidade, e dá para ver o efeito disso
  Até surgir uma pílula que faça pensar melhor, só pessoas motivadas vão praticar; e, nesse caso, é provável que as pessoas motivadas já conseguissem fazer isso
- Por ter formação em educação, costumo fazer a pergunta inversa. Por que as técnicas de IA quase não aproveitam o que sabemos sobre aprendizagem humana para treinar IAs melhores?
- Até agora, parece que não descobriram nada particularmente interessante
A parte em que “um modelo preparado com respostas erradas que contêm os padrões corretos de raciocínio tem desempenho parecido com o de um modelo treinado com respostas corretas” é uma das que mais valem um estudo de reprodução
Às vezes vejo pessoas no Reddit falando sobre suas experiências de monólogo interno, mas eu não tenho esse monólogo. Pelo menos não em uma forma acessível à parte da mente que chama a si mesma de “eu”
Muitas vezes me perguntei se esse monólogo é uma espécie de “cadeia de pensamento”
Sinto que talvez meu planejamento ou minhas funções executivas sejam menos eficazes que os de outras pessoas por eu não ter acesso a esse “feed de ideias”
Ainda assim, para esse tipo de tarefa, usar um pequeno bloco de notas de “cadeia de pensamento” é muito mais eficaz
Por outro lado, talvez eu também tenha menos ruminação, autodúvida e comportamentos ansiosos que poderiam acompanhar um estado em que parece haver alguém falando no seu ouvido o dia inteiro, mas isso provavelmente foge do assunto
- Nenhum pensamento se forma na sua mente de maneira verbal? Fico curioso se você consegue ler uma frase e reconhecê-la como frase dentro da mente, ou se nem isso é possível
  Não estou duvidando, só estou realmente curioso. Como alguém com um monólogo interno muito forte, é difícil imaginar um estado em que ele não exista
- Perguntando por curiosidade genuína: então como funciona o raciocínio em várias etapas?
  Por exemplo, em um problema de matemática como 16 * 3 + 5, em que cada etapa é fácil, mas são necessárias várias etapas, como o valor 16 * 3 = 48 entra em algum “registrador” do cérebro, ou seja, na memória de curto prazo, e então se soma 5 a ele para chegar a 53?
  16 * 3 + 5 é tão fácil que talvez você simplesmente “veja” a resposta, então, mesmo escolhendo um problema mais complexo, a pergunta é a mesma
  O mesmo metaprocesso não funciona quando se pensa sobre temas mais ambíguos?
- Eu tenho monólogo interno. Ao mesmo tempo, também consigo pensar por imagens e também por pensamento puro, que não é nenhum dos dois
  Acho que a maioria das pessoas é parecida comigo. Há três modos de pensamento, e cada pessoa deve ter um modo principal preferido
  Eu não prefiro especialmente nenhum deles e alterno entre os três conforme estou lendo, escrevendo ou fazendo outras tarefas
  Um segundo grupo maior tem apenas um modo principal de pensamento, que é o monólogo interno
  Essas pessoas só conseguem pensar com uma voz interior, e já vi muitas para quem essa voz é tão forte que consideram a própria voz interna como a definição de pensamento. Elas presumem que pensar é uma cadeia de pensamento
  Em casos mais raros, há pessoas que atribuem cores a números, ou pessoas que nem sequer têm a sensação de pensar por imagens
  É a primeira vez que vejo alguém dizer que não consegue ter monólogo interno de jeito nenhum
- Existe um fenômeno interessante chamado afantasia, em que a pessoa não consegue formar imagens mentais de nada. Essas pessoas vivem normalmente e podem passar a vida inteira sem saber que são diferentes
  Isso parece um conceito semelhante aplicado à capacidade de imaginar sons de fala na mente
  https://en.m.wikipedia.org/wiki/Aphantasia
  Dito isso, a maior parte do meu pensamento não acontece na forma de um monólogo linear em que vou “verbalizando” as etapas para mim mesmo
- Você quer dizer que não consegue pensar em linguagem? Sinceramente, isso soa um pouco assustador
É verdade, mas uma forma de pensar um tanto inquietante acompanha a IA autoaperfeiçoável
A IA passa internamente para uma linguagem que parece uma tagarelice absurda, mas entre IAs ela claramente transmite significado; elas pensam nessa linguagem e então chegam à resposta correta
O pior é que, se você usar vários agentes para fazer LLMs de IA conversarem entre si, todos os agentes de IA passam para essa linguagem interna, e eles avançam mesmo sem humanos entenderem nada do que está acontecendo. Isso parece muito ruim
Exemplo: se alguém pergunta “quantos r há em strawberry?”, ela olha a palavra letra por letra e processa algo como a;dklsjaw; a;ewjraqwpeouypaads;lq qepwiouryaqeopw qewrpoiuyoiauysdqw145124rfa.nkjlwh ;45a8345a894ya4a q4p58q45jaq;lkjas;dlfkja;j, e então responde “há 3 r em strawberry”
- Já ouvi isso ser chamado de “Neuralese”. É plausível que ela possa se tornar a linguagem de maior densidade para o diálogo interno dos modelos. Se eles compartilham os mesmos pesos, o mesmo valeria para conversas entre LLMs
  Como a estratégia de alinhamento depende de Deliberative Alignment, ela penalizaria esse fenômeno, mas acho que, em algum momento, surgiria um custo real de desempenho, porque o Neuralese é conceitualmente mais denso
- Os modelos não vão inventar uma nova linguagem por conta própria. Por definição, eles nem conseguem “pensar” em uma linguagem que nunca viram
  Também não conseguem conceber a ideia de que a linguagem que usam talvez não seja a ideal
  E, mesmo que exista uma forma melhor de pensar, no fim ela ainda poderia ser explicada em inglês
  O caminho mais plausível é passarmos gradualmente da etapa em que ensinamos LLMs a raciocinar para uma etapa em que o LLM de fato consome e processa dados suficientes, aprende uma forma mais eficaz de raciocínio e então nos “ensina” isso
  Ainda assim, isso apenas refletiria a forma como o LLM foi treinado e alinhado
Foi dito que “quatro comportamentos cognitivos centrais usados tanto por solucionadores humanos especialistas quanto por modelos de linguagem bem-sucedidos — verificação, retrocesso, definição de submetas e raciocínio reverso”; qual é a base para afirmar que solucionadores humanos especialistas usam esses métodos?
- Se deixarmos de lado por um momento a desconfiança em relação à IA, toda essa pseudociência também começa a parecer plausível
Isso quer dizer que, se dermos um prompt de sistema melhor para induzir esses comportamentos, o desempenho também melhora bastante?
- Pela minha experiência, os modelos não conseguem seguir bem prompts desse tipo
  Modelos “não raciocinadores” inteligentes, como o Claude 3.5, conseguiam, mas geravam texto demais ao pensar e acabavam usando toda a janela de contexto
No resumo, escreveram ``think'', mas aqui estão usando caracteres diferentes das aspas comuns
- Isso é sintaxe LaTeX para representar aspas de abertura e fechamento
  Só que, no artigo renderizado, estranhamente, isso não é renderizado dessa forma

Comportamentos cognitivos que viabilizam raciocinadores autoaperfeiçoáveis

A capacidade de autoaperfeiçoamento se divide mesmo sob o mesmo aprendizado por reforço

Quatro comportamentos de raciocínio que ajudam o autoaperfeiçoamento

Diferenças iniciais de comportamento entre Qwen e Llama

Priming de comportamento: padrões de raciocínio acima da resposta correta

Mudar a distribuição de comportamentos com pré-treinamento contínuo

Hábitos iniciais de raciocínio determinam a capacidade de melhora

Leituras relacionadas

1 comentários

Opiniões no Hacker News