O conhecimento procedural do pré-treinamento guia o raciocínio dos LLMs

(arxiv.org)

1 pontos por GN⁺ 2024-12-03 | 1 comentários | Compartilhar no WhatsApp

A avaliação de raciocínio de LLMs está sendo abalada pela saturação de benchmarks e pela contaminação de dados, e este estudo rastreia os documentos de pré-treinamento que influenciaram a saída, em vez dos pesos do modelo
Para o Cohere Command R 7B e 35B, com 2,5 bilhões de tokens de pré-treinamento e 5 milhões de documentos, o estudo ranqueia os documentos influentes para 40 consultas factuais e 40 consultas de raciocínio
As consultas factuais mostraram documentos influentes diferentes para cada pergunta, enquanto as consultas de raciocínio da mesma tarefa matemática exibiram padrões de influência semelhantes entre várias perguntas, sugerindo a existência de conhecimento procedural
Enquanto as respostas de consultas factuais eram frequentemente encontradas no 0,01% superior dos documentos mais influentes, as respostas corretas ou etapas intermediárias das consultas de raciocínio em geral não apareciam nos principais documentos influentes
O raciocínio se parece menos com recuperar respostas já vistas e mais com sintetizar processos de solução generalizáveis a partir de documentos que contêm procedimentos semelhantes

Rastreando documentos de pré-treinamento para ir além da contaminação de benchmarks

LLMs vêm mostrando rapidamente alto desempenho em vários benchmarks de raciocínio, mas, por causa da contaminação de dados, é difícil interpretar essas pontuações diretamente como capacidade de generalização
- No aprendizado de máquina tradicional, mede-se a generalização separando dados de treino e teste
- Como os modelos de ponta atuais usam dados na escala de trilhões de tokens, é difícil evitar a possibilidade de que benchmarks estejam misturados aos dados de pré-treinamento
- Mesmo dados de benchmark reformulados podem afetar o desempenho ao escapar da detecção baseada em N-gramas
A pergunta central é como os LLMs aprendem a raciocinar a partir dos dados de pré-treinamento
- Se recuperam e recombinam respostas ou rastros de raciocínio já vistos
- Ou se aprendem procedimentos a partir de vários documentos mais abstratamente relacionados à pergunta e então generalizam
A análise não interpreta diretamente os pesos internos do modelo, mas retrocede até os documentos de pré-treinamento que influenciaram uma saída específica
- Usa uma abordagem de função de influência, adaptando técnicas de estatística robusta para Transformers em larga escala
- Calcula quanto cada documento de pré-treinamento afeta a probabilidade de um par específico de prompt-completação

Configuração experimental

Os alvos do experimento são dois modelos da Cohere: Command R 7B e 35B
Os dados de pré-treinamento analisados somam 2,5 bilhões de tokens, tratados como 5 milhões de documentos
As consultas totalizam 80
- 40 consultas factuais: perguntas que exigem recuperar respostas do conhecimento paramétrico
- 40 consultas de raciocínio: perguntas simples de raciocínio matemático
As consultas de raciocínio incluem três tarefas matemáticas
- Aritmética de 2 etapas
- Cálculo de inclinação
- Resolução de equações lineares
Para cada consulta, os 5 milhões de documentos de pré-treinamento foram ranqueados com base na influência sobre a probabilidade da saída do modelo

No raciocínio, documentos com o mesmo procedimento influenciam repetidamente

Consultas de raciocínio diferentes dentro da mesma tarefa matemática mostraram padrões de influência documental semelhantes
- A influência de um documento sobre o rastro de raciocínio de uma consulta prediz fortemente sua influência sobre outras consultas da mesma tarefa
- Esse padrão foi confirmado em 3 de 4 casos
Em vez de corresponder apenas a um número específico ou a uma única resposta, os documentos contribuem de forma semelhante para várias perguntas que aplicam o mesmo procedimento a números diferentes
Em contraste, as consultas factuais dependem principalmente de conjuntos de dados diferentes para cada pergunta, sem o padrão comum de influência visto nas consultas de raciocínio
Na tarefa de cálculo de inclinação, a correlação apareceu de forma especialmente forte
- Em muitas consultas dessa tarefa, código ou procedimentos de solução em forma matemática foram encontrados repetidamente no 0,002% superior dos dados de pré-treinamento

Busca factual e raciocínio têm naturezas diferentes nos documentos influentes

Nas consultas factuais, a própria resposta aparece com frequência em documentos de alta influência
- Entre os 500 principais documentos, ou seja, o 0,01% superior dos documentos influentes, 55% das consultas do modelo 7B e 30% das do modelo 35B continham a resposta
Nas consultas de raciocínio, a resposta correta quase não aparece nos documentos de alta influência
- Mesmo quando a resposta correta pode ser encontrada em todo o conjunto de 2,5 bilhões de tokens, ela normalmente não aparece nos principais documentos influentes
- As respostas das etapas intermediárias de raciocínio também em geral não estão incluídas nos documentos de alta influência
Nas consultas de raciocínio, a influência de documentos individuais por unidade de informação gerada pela consulta tende a ser menor do que nas consultas factuais
- Ao produzir rastros de raciocínio, o modelo depende menos de cada documento individualmente
A magnitude total da influência do conjunto de documentos influentes também varia menos nas consultas de raciocínio
- Se um subconjunto aleatório dos 2,5 bilhões de tokens de pré-treinamento inclui documentos extremamente influentes depende mais do acaso no caso das consultas factuais
Considerados em conjunto, esses dois padrões sugerem que o raciocínio depende menos de documentos individuais e se aproxima mais de generalizar a partir de um conjunto mais amplo de documentos

O papel do código e de dados procedurais de alta qualidade

Nos trechos superiores do ranking de influência positiva e negativa para consultas de raciocínio matemático, dados de código estão fortemente sobrerrepresentados em relação à distribuição de treino
Há evidências de que código tem papel importante em todas as tarefas matemáticas analisadas
O raciocínio do modelo difere de recuperar respostas a partir de conhecimento paramétrico formado no pré-treinamento
- Explicações procedurais gerais
- Exemplos em que procedimentos semelhantes são aplicados
- Documentos que mostram o processo de solução com código ou fórmulas
Em vez de colocar todos os casos possíveis nos dados de pré-treinamento, pode ser mais eficaz concentrar-se em dados de alta qualidade que mostrem procedimentos em diversas tarefas de raciocínio
O escopo do estudo se limita a casos em que o procedimento é aprendido dentro da mesma tarefa matemática
- Se existem tipos de dados de pré-treinamento, como código, que permitam aprendizado procedural em várias tarefas continua sendo uma questão em aberto

1 comentários

GN⁺ 2024-12-03

Opiniões no Hacker News

Parece óbvio que um LLM não consegue encontrar exemplos de todos os problemas nos dados de treinamento. Como não haveria exemplos suficientes para consultas factuais no estilo recuperação de informação, dá para dizer que ele cria novas soluções para um problema dado por meio de alguma forma de extrapolação
O interessante é que este artigo também não contradiz a conclusão do artigo da Apple sobre LLMs[0]. Esse artigo modificou os prompts para fazer o LLM errar, e é plausível acreditar que, mesmo quando um LLM cria uma nova solução, ele só consegue produzir pequenas variações em relação a soluções de exemplo existentes
Não gosto de chamar esse processo de geração de soluções de “raciocínio”. Vejo isso mais como um termo criado por empresas de LLM para induzir uma reação emocional quando falam da tecnologia. Ainda assim, é um grande avanço termos conseguido fazer uma máquina seguir uma sequência de etapas usando linguagem natural e um certo grau de ambiguidade
[0] https://machinelearning.apple.com/research/gsm-symbolic
- Concordo bastante com a visão de que LLMs não se encaixam bem em raciocínio no sentido de resolução criativa de problemas ou aplicação de lógica. Acho que o verdadeiro potencial nessa área está em usá-los como uma espécie de camada de compilador entre linguagem natural imprecisa e linguagens formais como SQL, Prolog, Python e Lean
  Depois disso, é possível sintetizar os resultados ou saídas da camada de linguagem formal, e isso basicamente vira um “agente”. Ainda assim, acho que LLMs conseguem fazer tarefas de “raciocínio linguístico”. Não sei bem onde ficam as fronteiras entre raciocínio linguístico, qualitativo e quantitativo, e isso me faz pensar nas seções de linguagem de testes padronizados
- Dá para acreditar que eles “criam novas soluções por alguma forma de extrapolação”, mas fico curioso sobre quais evidências estão sendo usadas para sustentar essa crença
  E o resumo do artigo da Apple diz que eles mudaram os valores numéricos iniciais, em vez de usar alguma formulação engenhosa como “danificação”
- A antropomorfização de computadores já existia muito antes do ChatGPT. Quando um computador morria e um documento não era salvo, as pessoas diziam “o computador comeu meu dever de casa”, mas ninguém achava que ele tinha comido de verdade; era só uma forma fácil de se referir ao que tinha acabado de acontecer
  Mesmo antes dos LLMs, dava para dizer “o computador está pensando”. Nem todo mundo conhece termos matemáticos, então, se eu disser “o Claude fez produto interno do meu ensaio” ou “pedi ao ChatGPT para fazer produto interno da carta que vou mandar ao meu chefe”, muita gente nem sabe o que é produto interno. Mesmo que haja um verbo tecnicamente mais preciso, quem vai usá-lo?
  Não é que as empresas de IA não tenham empurrado expressões como “pensar” ou “raciocínio”, mas elas também são as palavras mais fáceis de usar. Dizemos que o modelo “acha” que strawberry tem dois Rs, não que ele “faz produto interno”. Ele também faz multiplicação de matrizes e, às vezes, softmax e convoluções, mas a maioria das pessoas não é Terence Tao, então não tem a sensação de que algo está fazendo softmax
- Essas empresas promovem seus modelos de IA como se fossem IAs que pensam e raciocinam por conta própria, mas, na prática, vejo mais como algo treinado em conjuntos de dados enormes e que extrapola a partir deles para encontrar a resposta correta
  Ainda assim, não consegue pensar fora da caixa do próprio dataset
Isso quer dizer que humanos precisam resolver problemas passo a passo para que uma rede neural consiga imitá-los? Escrito assim, parece bastante óbvio
- Acho que não. Se entendi corretamente, significa que, ao absorver exemplos de resolução procedural de problemas, o software aprende métodos gerais para resolver problemas
Isso pode explicar os benefícios inesperados de treinar com código
- Parece interessante, mas sou leigo e não sei bem. Fico curioso se você poderia passar algum link relacionado
  Encontrei https://arxiv.org/abs/2408.10914, mas não tenho o conhecimento de base para julgar se é esse o artigo a que você se referiu
Acho surpreendente que a frase “LLMs demonstram capacidades gerais de resolução de problemas, mas também exibem lacunas de raciocínio impressionantes em comparação com humanos, levantando dúvidas sobre a robustez de suas estratégias de generalização” esteja sendo recomendada
Porque no HN havia uma quantidade surpreendentemente grande de pessoas que achavam que LLMs não raciocinam de jeito nenhum, e que LLMs deveriam ser explicados apenas pela lente de preditores do próximo token. Na última vez em que falei sobre inteligência de LLMs, alguém foi grosseiro e disse para eu estudar como LLMs funcionam, porque já sabemos exatamente como eles operam e eles são apenas preditores de tokens
- Acho que essas “lacunas impressionantes” surgem justamente porque LLMs não raciocinam. Pelo menos, não raciocinam sobre os objetos em que humanos pensam ao resolver um problema; é mais como lidar com outros conjuntos de fatos frequentemente correlacionados sobre relações entre tokens no texto
  Os modos de falha mostram essa diferença com mais nitidez. A saída de um LLM só tem significado, no sentido em que normalmente falamos, no momento em que um humano atribui significado externo a ela depois do fato. Um LLM não para de funcionar nem fica “confuso” quando recebe uma salada de palavras. Isso acontece porque o significado que ele extrai não depende do significado que os humanos atribuem; apenas o alimentamos com coisas que por acaso consideramos não serem salada de palavras, alinhando os dois por acidente. Em termos de “como ele realmente funciona”, é outra questão
- As pessoas mais barulhentas parecem muitas vezes estar em posições extremas, e o mesmo vale para perguntas como “determinada IA é inútil/sobre-humana em determinado domínio?”. Talvez seja só uma impressão simples, mas, como disse CGP Grey, talvez a própria controvérsia seja o que as mantém vivas por mais tempo: https://www.youtube.com/watch?v=rE3j_RHkqJc
  Se você fica numa posição intermediária, é atacado pelos dois extremos. É uma posição estranha, em que pensar algo como “é uma ferramenta útil, mas dá para ver muitas maneiras de ela quebrar” parece estar fora da janela de Overton nesse assunto. Fico curioso sobre como era o discurso cotidiano real em torno dos teares na época da Revolução Industrial, não os resumos modernos, mas a atmosfera de verdade
- As duas coisas podem ser verdade ao mesmo tempo. Sim, LLMs são preditores do próximo token, mas às vezes, para fazer isso corretamente, eles precisam de fato entender todo o conteúdo anterior e raciocinar logicamente
  Como na frase atribuída a Sutskever, se a entrada do modelo é a maior parte de um romance policial e o próximo token é o nome do assassino, então o modelo entendeu o romance. Transformers são aproximadores de funções arbitrárias, então não há limites rígidos sobre o que podem ou não fazer
- Acho que “preditor do próximo token” e inteligente não são, na prática, mutuamente excludentes
Muito relacionado a uma discussão recente: https://news.ycombinator.com/item?id=42285128
O Google argumenta que usar pré-treinamento é um requisito essencial para conseguir produzir qualquer projeto de chip melhor. E também argumenta que um artigo de refutação que não tentou usar pré-treinamento deveria mesmo ser esperado como ficando muito abaixo do estado da arte em projeto de chips.
Se o raciocínio é importante no projeto de chips, e o pré-treinamento é importante para extrair raciocínio de grandes modelos de linguagem, então a lógica do Google é bastante razoável. Se o Google, mesmo usando pré-treinamento, mal superou o estado da arte, faz sentido esperar que uma tentativa sem pré-treinamento fique muito abaixo do estado da arte atual. Portanto, o baixo desempenho dessa segunda tentativa não diz muito sobre se os resultados do Google são plausíveis ou não.
- Não sou especialista na aplicação específica daquele texto, mas consigo entender por que o argumento do pré-treinamento pode fazer sentido. A afirmação de que o pré-treinamento de redes neurais melhora o desempenho de aprendizado com poucos exemplos não é muito controversa.
  Parece provável que, para todo problema, exista um ponto de inflexão em que uma rede neural pré-treinada passa a ter desempenho melhor em aprendizado com poucos exemplos do que abordagens que exigem menos dados, como características feitas manualmente ou fortes pressupostos prévios. A questão aqui parece ser apenas se esse caso chegou ou não a esse ponto de inflexão.
“No caso extremo, um modelo de linguagem que responde a perguntas de raciocínio pode depender fortemente de recuperar conhecimento paramétrico influenciado por um conjunto limitado de documentos nos dados de pré-treinamento. Nesse caso, as informações a serem recuperadas — isto é, os documentos específicos que contêm rastros de raciocínio — contribuem muito para a saída do modelo, enquanto muitos outros documentos têm apenas um papel marginal.”
“No outro extremo do espectro, por outro lado, o modelo recorre a uma ampla variedade de documentos relacionados de forma mais abstrata à pergunta; cada documento pode influenciar várias perguntas de maneira semelhante, mas contribuir relativamente pouco para a saída final. Sugerimos que o raciocínio generalizável deveria se parecer com esta última estratégia.”
Mas, se o modelo consegue generalizar a partir de um único exemplo, isso não seria muito mais impressionante?
Concordo. A ideia é que os dados de treinamento de raciocínio são mais importantes do que fatos. Entre os dados não sintéticos, talvez os mais fáceis de obter sejam provas matemáticas.
Usando algo como Prolog, é possível gerar vários caminhos alternativos de raciocínio. É difícil dizer se esses múltiplos caminhos ajudariam no treinamento de LLMs sem acesso a máquinas enormes para experimentar diretamente. Isso é muito injusto.
Como leigo, essa conclusão é parecida com AlphaGo versus AlphaZero? No sentido de que o conhecimento procedural humano ajuda o treinamento de machine learning até certo ponto, mas depois passa a ser uma limitação?
- Não. O que se diz é que, nos modelos analisados, eles usavam principalmente informações sobre como resolver problemas matemáticos, e não documentos nos dados de treinamento que continham a resposta para o mesmo problema matemático.
  “Investigamos quais dados influenciam os rastros de raciocínio gerados pelo modelo e como esses dados se relacionam com o problema específico em questão. O modelo simplesmente ‘recupera’ e recombina respostas de dados de pré-treinamento que já viu antes, ou usa uma estratégia de generalização mais robusta?”
  “Ao caracterizar qualitativamente os principais documentos para perguntas de raciocínio, observamos que documentos influentes frequentemente contêm conhecimento procedural, por exemplo mostrando como obter uma solução usando fórmulas ou código. Nossos resultados indicam que o tipo de raciocínio usado pelo modelo é diferente de recuperação e se aproxima mais de uma estratégia generalizável que sintetiza conhecimento procedural a partir de documentos que executam formas semelhantes de raciocínio.”
  Exemplo de pergunta de raciocínio: “Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step.”
Isso quer dizer que LLMs poderiam se sair melhor se fossem treinados com grandes volumes de materiais como anotações de alunos, provas e resenhas de livros? Se for o caso, seria realmente interessante.
- Às vezes me pergunto por que os sistemas de IA não são treinados com currículos educacionais acrescidos de jogos e brincadeiras.
  Também poderia ser fascinante ver o que surgiria ao usar diversos sistemas educacionais do mundo todo.
Talvez seja uma pergunta idiota, mas, então, por que as imagens geradas viram um monte de besteira de pesadelo? Por que eles não conseguem construir diagramas proceduralmente?

O conhecimento procedural do pré-treinamento guia o raciocínio dos LLMs

Rastreando documentos de pré-treinamento para ir além da contaminação de benchmarks

Configuração experimental

No raciocínio, documentos com o mesmo procedimento influenciam repetidamente

Busca factual e raciocínio têm naturezas diferentes nos documentos influentes

O papel do código e de dados procedurais de alta qualidade

Leituras relacionadas

1 comentários

Opiniões no Hacker News