Meta Chain-of-Thought ensina como aprender a pensar

(arxiv.org)

2 pontos por GN⁺ 2025-01-12 | 1 comentários | Compartilhar no WhatsApp

Meta Chain-of-Thought (Meta-CoT) é uma estrutura que vai além do CoT, que usa apenas as etapas finais da solução, e busca modelar até os processos latentes de pensamento antes de chegar à resposta
Em problemas matemáticos de alta dificuldade, a solução final em estilo de livro-texto omite a exploração, verificação e experimentação do raciocínio real, o que dificulta para o modelo aprender o processo de geração da solução
GPT-4o e Claude também podem falhar em algumas avaliações algébricas, mas o CoT com instruções como “step by step” aumenta os cálculos intermediários e eleva a chance de acerto, revelando diferenças na quantidade de computação de raciocínio
A família OpenAI o1 produz saídas mais longas e amplia a diferença de desempenho em benchmarks matemáticos difíceis como o HARP, mostrando um comportamento ligado à busca no momento da inferência
O caminho de implementação do Meta-CoT é proposto como um pipeline de treinamento que reúne supervisão de processo, dados sintéticos, busca com MCTS e A*, instruction tuning baseado em rastros de busca linearizados e pós-treinamento com aprendizado por reforço

O problema que o Meta-CoT busca resolver

A base dos atuais modelos de linguagem de grande porte é a previsão do próximo token, em que texto ou modalidades contínuas são divididos em sequências discretas de tokens e o treinamento busca maximizar a probabilidade do próximo token
Essa abordagem parte da visão de que “compression is intelligence”
- Para prever o próximo token, o modelo precisa aproximar a distribuição dos dados e realizar inferência implícita em suas ativações
A pergunta central é a relação entre a complexidade do fluxo de dados e a capacidade do modelo de aprender o algoritmo que gera esses dados
O raciocínio matemático é usado como um bom domínio para avaliar essa questão
- Em problemas como “1+2”, a maioria responde imediatamente “3”
- Problemas mais complexos de avaliação algébrica na prática se simplificam para 1, mas até LLMs fortes como GPT-4o e Claude podem não acertar nenhuma vez
A instrução “think step by step” e o CoT fazem o modelo gerar etapas intermediárias e aumentam bastante o desempenho
- No exemplo algébrico, o valor 1 é obtido por meio de fatoração, simplificação e cálculo de denominador comum

Limites do CoT existente

A expansão por CoT permite, em teoria, investir uma quantidade arbitrariamente grande de computação na previsão do token correto
A literatura teórica existente considera que o CoT oferece aos LLMs um novo nível de complexidade representacional e que, sob hipóteses como memória infinita, ele poderia até alcançar completude de Turing
Na prática, os LLMs ainda resolvem com estabilidade apenas problemas de complexidade limitada
O processo real de geração de dados em raciocínios complexos não está suficientemente presente nos dados comuns de CoT
- Em problemas simples, o processo de solução em estilo didático combina relativamente bem com o processo real de encontrar a resposta
- Em problemas complexos, as etapas finais da solução omitem o processo de busca não linear anterior à descoberta daquela solução

Definição de Meta Chain-of-Thought

Em vez de ir diretamente da pergunta para as etapas finais da solução e para a resposta, o Meta-CoT modela os pensamentos latentes z1 ... zK que existem antes disso
No CoT clássico, pode-se ver a resposta a como condicionada às etapas da solução s1 ... sn
No Meta-CoT, as etapas da solução e a resposta (a, s1 ... sn) são vistas como condicionadas ao processo latente de pensamento z1 ... zK
Trata-se de uma generalização, um nível acima, da lógica do CoT existente, trazendo para o alvo de aprendizado o processo de pensamento fora da solução final
Em problemas complexos, mesmo quando a solução final é curta, o processo para descobri-la pode ser longo e não linear

Caso do problema “windmill” da IMO 2011

O famoso problema windmill da International Mathematics Olympiad 2011 é usado como exemplo de raciocínio complexo
A solução pública desse problema pode ser expressa em poucas frases e não exige conhecimento prévio especial
A verdadeira dificuldade está no fato de a solução ter uma estrutura altamente não linear
- Muitos participantes tentaram ferramentas como construção de convex hull ou teoria de grafos hamiltonianos, mas sem chegar à solução
- Os participantes que resolveram o problema seguiram uma abordagem experimental com muita exploração geométrica e raciocínio indutivo
A construção inicial da solução final só parece útil quando se conhece toda a abordagem de antemão
Por isso, o processo real de geração da solução não se encaixa bem em um modo autorregressivo da esquerda para a direita

Resultados no HARP e uso de tokens da família o1

Discute-se que a família de modelos OpenAI o1 realiza raciocínio Meta-CoT de forma autorregressiva no momento da inferência
No benchmark matemático HARP, a família o1 apresenta desempenho geral superior ao dos modelos padrão de raciocínio existentes
Quanto maior a dificuldade do problema, maior a diferença de desempenho entre o o1 e os demais modelos
- Ainda assim, foi observada uma exceção interessante no modelo LLaMa 3.1
A quantidade de tokens gerados também mostra um comportamento diferente na família o1
- Em problemas de nível 1, ela gera um número de tokens semelhante ao de soluções escritas por humanos
- Em níveis mais altos de dificuldade, gera muito mais tokens por problema e, ao mesmo tempo, a diferença de desempenho em relação aos modelos existentes aumenta
Isso leva à hipótese de que as soluções públicas para problemas muito difíceis não representam o processo real de geração, e que o Meta-CoT mais longo da família o1 pode aproximar melhor esse processo

O papel da busca e da verificação

Em problemas complexos orientados a objetivos, pode existir uma diferença significativa de dificuldade entre gerar e verificar
Essa diferença se conecta a questões fundamentais em aberto da ciência da computação teórica, embora prová-la esteja fora do escopo da pesquisa
As respostas para problemas difíceis presentes em corpora de texto podem ser vistas como resultado de longos processos de busca
Mas o próprio processo de busca em geral não aparece expresso nos dados
Quando não há dados de Meta-CoT, ou eles existem apenas de forma limitada, o modelo tem dificuldade para aprender diretamente o processo real de geração em raciocínios de alta dificuldade

Experimento com LLaMa 3.1 8B

Foi realizado um supervised fine-tuning em larga escala no modelo base LLaMa 3.1 8B usando o dataset Numina MATH
Cada checkpoint intermediário foi avaliado no conjunto de 500 problemas do benchmark Hendrycks MATH
Na avaliação pass@k com oracle verifier, observou-se que o desempenho sobe fortemente à medida que k aumenta
A Figure 2 mostra que o dataset filtrado apresenta escalonamento melhor que o dataset original e ainda não atingiu plateau
Ao aumentar k de pass@2 para pass@64, a probabilidade de obter ao menos uma solução correta cresce bastante mesmo em modelos pequenos

Caminho de treinamento e questões em aberto

Como forma de construir Meta-CoT, são discutidos supervisão de processo e geração de dados sintéticos baseada em busca
A geração sintética de Meta-CoT inclui algoritmos de busca como Monte Carlo Tree Search (MCTS) e A*
O pipeline voltado a um único sistema end-to-end combina instruction tuning com rastros de busca linearizados e pós-treinamento com aprendizado por reforço
O projeto “Big MATH” é uma tentativa de apoiar essa pesquisa reunindo mais de 1.000.000 de problemas matemáticos verificáveis de alta qualidade
Entre as questões de pesquisa em aberto estão leis de escala para raciocínio e busca, o papel do verifier e a possibilidade de descobrir novos algoritmos de raciocínio via meta-RL

1 comentários

GN⁺ 2025-01-12

Opiniões no Hacker News

A crítica ao CoT é convincente. O ponto central é especialmente quando aponta a desconexão entre imitação algorítmica e uma exploração cognitiva de verdade.
Os autores usam exemplos de matemática avançada, como o “windmill problem” da Olimpíada Internacional de Matemática, para mostrar problemas difíceis de resolver por um pensamento sequencial de força bruta. Ficam evidentes os limites de uma abordagem que depende de datasets estáticos e de um processo de geração rígido. O motivo pelo qual CoT falha não é por não conseguir gerar uma resposta, mas por não ter uma forma de conceber a resposta como a criatividade humana faz.
A frase “a superinteligência não é descobrir coisas novas, mas descobrir novas maneiras de descobrir” é marcante.
- Então, mais adiante, também podem surgir problemas que exigem “uma nova maneira de descobrir novas maneiras de descobrir”, e isso pode continuar indefinidamente.
- Basta treinar com meta-raciocínio. É só treinar o processo pelo qual as pessoas descobrem maneiras de descobrir; não parece ser um grande problema, seria uma questão de criar um dataset e treinar.
- Gostei da frase citada no fim. Fico curioso se alguém lembra a fonte original.
- Sobre o windmill problem, há isto: https://www.3blue1brown.com/lessons/windmills
A grande ideia do artigo é que CoT é limitado em alguns problemas complexos. Há problemas para os quais não existe um método “de livro-texto” para encontrar a solução, e esses problemas exigem uma metodologia própria.
O ponto central é: “essencialmente, para começar a gerar uma solução, você já precisa conhecer a abordagem inteira. O processo gerativo subjacente à solução não é um processo autorregressivo que avança da esquerda para a direita”.
Matematicamente, isso pode ser formalizado como uma interpretação do raciocínio como um processo de variável latente. Enquanto o CoT clássico vê a probabilidade da resposta final como uma marginalização sobre uma cadeia latente de raciocínio, o processo real de geração de soluções para problemas complexos deve ser visto como a distribuição de probabilidade conjunta da solução condicionada a um processo gerativo latente. Por isso, q → z1 → … → z é chamado de Meta-CoT.
Isso parece um ponto de partida bastante importante. Por exemplo, se você perguntar ao o1-pro como operar um diodo laser de 1550 nm a 1 GHz reduzindo perdas geométricas sem um colimador caro, usando materiais genéricos, uma nova abordagem de fabricação ou física de primeiros princípios, a ilusão de que o o1-pro é incrível se desfaz. A engenharia “nova” ainda é difícil de alcançar e, como não há livro-texto sobre como fazer esse tipo de engenharia, esses problemas não são resolvidos de modo autorregressivo da esquerda para a direita.
- É impressionante o quanto a meta foi deslocada.
  Agora parece que, para um modelo de IA ser “incrível”, ele precisa receber um problema de qualquer área difícil que nem humanos ainda resolveram e devolver uma boa solução. Uma IA assim obviamente seria incrível e mudaria o mundo, mas é bem surpreendente que algo abaixo disso já não seja mais considerado “incrível”.
- Tenho dúvidas se mesmo humanos conseguiriam dar uma solução adequada para esse problema sem consultar a realidade física, ou seja, sem experimentos.
  Parte da realidade é incomputável, então, no fim, só é possível chegar lá deixando o próprio universo fazer a simulação.
- A expressão “problemas para os quais não existe um método de livro-texto para encontrar a solução” não bate com minha experiência interagindo com LLMs.
  Mesmo quando eu fazia perguntas de um jeito que a maioria das pessoas não entenderia, pelas respostas dava para perceber que a pergunta em si tinha sido interpretada corretamente. Se a resposta estava certa é outra questão, mas havia, em certa medida, interpretações que não eram exemplos de livro-texto.
- Dizem que “não há livro-texto sobre como fazer engenharia nova”, mas não existem livros sobre o método científico?
  Como outros comentários disseram, esperar que uma superinteligência dentro de uma caixa descubra algo que exige experimentação e observação é fisicamente quase impossível. Isso acabaria ficando limitado a áreas como matemática pura, em que basta escrever no papel e pensar a partir de axiomas; e justamente essas áreas estão entre as mais difíceis para avançar. A humanidade também chegou até aqui ao longo de milhares de anos, com vários eruditos contribuindo com partes muito pequenas.
A comunidade de pesquisa chegou a um consenso de que “modelos de linguagem não apenas ajustam correlações entre palavras sequenciais, mas aprendem o significado implícito do texto”? Fico curioso se há artigos que tratem desse tema
- A comunidade de pesquisa não chegou nem um pouco a um consenso sobre isso; há várias correntes. Em processamento de linguagem natural, em linhas gerais, há duas perspectivas
  O artigo de Bender e Koller de 2020[1] argumenta que significado não pode ser aprendido apenas a partir da forma, e que LLMs são treinados pela forma. No experimento mental “The Octopus Test” do artigo, aparece um polvo capaz de interceptar a conversa entre dois humanos, mas a explicação é que, “tendo apenas a forma como dados de treinamento, ele não aprendeu significado”
  Por outro lado, o texto de Yoav Goldberg[2] trata de modo mais informal de grounding e do que LLMs aprendem. Em geral, a tese é que instruction tuning e pós-treinamento podem ancorar de forma significativa termos como “summarize”
  [1] https://aclanthology.org/2020.acl-main.463/
  [2] https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8...
- Sempre tenho a impressão de que talvez não haja uma diferença real entre “o significado implícito do texto” e “correlações entre palavras sequenciais”
  O fato de um LLM conseguir se comunicar efetivamente com humanos parece mais uma descoberta sobre a regularidade da semântica da comunicação humana do que uma descoberta sobre a inteligência de redes neurais
- Definitivamente não é algo consensual. Em ciência da computação, teoria do significado não faz parte originalmente do campo, e quase ninguém tem base em pesquisas anteriores relacionadas, então afirmações ousadas desse tipo aparecem por toda parte
  Seja qual for a forma de atribuir semântica à linguagem natural, é difícil dizer que um modelo de machine learning use essa semântica
  O melhor que talvez se possa dizer é que, sob aprendizado supervisionado ao estilo Transformer — isto é, sob o objetivo de “prever a próxima palavra” —, a estrutura de correlação entre palavras cria uma distribuição de aproximação extremamente grosseira da semântica da linguagem natural. Isso em si nunca foi controverso; a questão é que tipo de aproximação extrema ela é
  Por exemplo, as condições de verdade de “há uma caneta na minha mão” são, de fato, que haja uma caneta na minha mão. Para querer dizer isso naquele contexto, é muito plausivelmente necessário ter acesso direto a essas condições de verdade. Como uma máquina não pode acessar as condições de verdade desse enunciado, ela não pode querer dizer isso
  Se a máquina diz “há uma caneta na minha mão” em uma situação apropriada, a “aproximação extrema da semântica da linguagem natural” diz respeito a essa situação e ao que é “apropriado”
  Do ponto de vista de quem critica LLMs e o modo de pensar típico da ciência da computação, a faixa de “situações” em que essa resposta parece apropriada — isto é, as condições de prompt — é muito estreita. O fato de a resposta parecer apropriada para o usuário é uma condição de engenharia indicando que a ferramenta funciona bem, não que o modelo entenda a semântica da linguagem natural
  Portanto, pode-se dizer que LLMs aproximam conversas entre agentes que entendem semântica em situações limitadas e modelam o uso apropriado da linguagem. Poderia ser chamado de modelo de “adequação média da resposta”, mas ele não consegue de fato querer dizer “há uma caneta na minha mão”
É preciso ter cuidado com formulações que invocam o princípio de que “compressão é inteligência” ou a indução de Solomonoff
Nos dois textos completos de “A Formal Theory of Inductive Inference” citados acima, a palavra “intelligence” aparece 0 vez, “Compression” também 0 vez, e “reasoning” aparece apenas 1 vez, na expressão “using similar reasoning”
Naturalmente, o interesse de Solomonoff era inferência indutiva. Não sei se ele alguma vez disse que “compressão é inteligência”, e essa ideia e esse slogan parecem ter se desenvolvido muito depois. A fonte original também não é clara
É verdade que a indução de Solomonoff está profundamente relacionada ao problema de prever o próximo símbolo em uma sequência de símbolos, mas eles não precisam necessariamente ser tokens de linguagem. Expressões comuns como dizer que LLMs estão em um “estágio inicial” estão erradas. Modelagem de linguagem é, pelos padrões da ciência da computação, uma tecnologia quase antiga, e já entrou em estágio de maturidade técnica há muito tempo
[1] https://raysolomonoff.com/publications/1964pt1.pdf
[2] https://raysolomonoff.com/publications/1964pt2.pdf
- Faz bastante sentido dizer que inteligência é uma forma de compressão. Um modelo indutivo é pequeno, mas pode potencialmente gerar uma quantidade arbitrária de informação
É um trabalho cuidadoso. Há alguns meses venho pensando e trabalhando em ideias relacionadas, mas ainda não pude usar recursos computacionais de escala semelhante, e a direção talvez também fosse um pouco diferente
Este estudo certamente ajuda a criar uma baseline para aproveitar melhor a arquitetura Transformer com decoder
Aqui, Meta se refere à empresa Meta, ou estão usando a palavra “meta”? Ou as duas coisas?
- Foi usada como palavra
  https://chatgpt.com/share/67813a3f-c7e8-8001-ab0c-7f024bc41a...
Fico curioso se há alguma forma de saber em que proporção pesquisadores estudam coisas que eles próprios tiveram em mente, e em que proporção trabalhos feitos por desenvolvedores independentes online chamam atenção, passam a ser pesquisados e viram artigos
O fato de o artigo usar como exemplo equações algébricas simples de substituição e sua resolução passo a passo reforça a percepção de que LLMs só conseguem reproduzir receitas de solução que já viram antes
Na verdade, isso não é muito diferente de como aprendemos matemática na escola. O professor mostra o ponto de partida e vai passo a passo até o fim. Chamar isso de “Meta Chain-of-Thought” parece inflar o currículo básico de ensino
Talvez da próxima vez passem a chamar o ato de pegar talheres básicos de algo forçado como “teoria hierárquica do movimento físico”. Na escola, esse “Meta Chain-of-Thought” era simplesmente chamado de “mostre o processo de resolução”. É mesmo um “fenômeno” que precisa de explicação? Talvez possamos aprender mais sobre indução lógica, isto é, sobre como alcançamos etapas de raciocínio, mas ainda estamos imersos demais no caldo para descrever com precisão o formato da panela
- Não sei se “só consegue reproduzir receitas que já viu antes” é sobre LLMs ou sobre você mesmo

Meta Chain-of-Thought ensina como aprender a pensar

O problema que o Meta-CoT busca resolver

Limites do CoT existente

Definição de Meta Chain-of-Thought

Caso do problema “windmill” da IMO 2011

Resultados no HARP e uso de tokens da família o1

O papel da busca e da verificação

Experimento com LLaMa 3.1 8B

Caminho de treinamento e questões em aberto

Leituras relacionadas

1 comentários

Opiniões no Hacker News