-
O impacto do conhecimento procedural no raciocínio de grandes modelos de linguagem
-
As capacidades e limitações dos grandes modelos de linguagem (LLMs) foram estudadas em detalhe nos últimos anos. Embora os LLMs demonstrem capacidade de resolver problemas, ainda existe uma lacuna de raciocínio em comparação com humanos, o que levanta dúvidas sobre a robustez de suas estratégias de generalização.
-
Devido ao enorme volume de dados usado no design dos LLMs, é difícil aplicar a separação tradicional entre conjuntos de treino e teste, que é uma medida clássica de generalização. Para contornar isso, os autores investigam nos dados de pré-treinamento as estratégias de generalização que os LLMs usam ao executar tarefas de raciocínio.
-
Usando modelos de dois tamanhos (7B e 35B) e 2,5 bilhões de tokens de pré-treinamento, os autores identificam os documentos que influenciam a saída do modelo em três tarefas simples de raciocínio matemático e os comparam com os dados que influenciam respostas a perguntas factuais.
-
O modelo usa principalmente conjuntos de dados distintos para cada pergunta factual, mas, em perguntas de raciocínio diferentes dentro da mesma tarefa, os documentos frequentemente exercem influência semelhante, indicando a presença de conhecimento procedural.
-
As respostas para perguntas factuais aparecem com frequência nos dados mais influentes, mas, no caso das perguntas de raciocínio, nem a resposta final nem as respostas de etapas intermediárias de raciocínio mostram alta influência.
-
Uma análise qualitativa dos principais documentos para perguntas de raciocínio confirma que os documentos influentes frequentemente incluem conhecimento procedural que mostra métodos de resolução por meio de fórmulas ou código.
-
Essas descobertas sugerem que a abordagem de raciocínio usada pelo modelo não é uma simples recuperação, mas uma estratégia generalizável que sintetiza conhecimento procedural de documentos que realizam formas semelhantes de raciocínio.
1 comentários
Comentários do Hacker News
Aponta que os LLMs não conseguem encontrar exemplos de todos os problemas nos dados de treinamento e menciona que não há exemplos suficientes de consultas factuais necessários para uma exploração no estilo de recuperação de informação
Aponta que, para que redes neurais possam imitar isso, os humanos precisam resolver problemas passo a passo
Menciona que os LLMs demonstram capacidade de resolver problemas, mas que há uma lacuna de raciocínio quando comparados aos humanos
Explica que, quando modelos de linguagem respondem perguntas de raciocínio, muitas vezes recuperam informações de um conjunto limitado de documentos
Afirma que o pré-treinamento do Google desempenha um papel importante no design de chips
Pergunta por que as imagens geradas têm um aspecto de pesadelo e argumenta que são necessários mais dados de treinamento para raciocínio
Explica, por meio da comparação entre AlphaGo e AlphaZero, que o conhecimento procedimental humano ajuda no treinamento de ML, mas pode ter limitações
Sugere que treinar com anotações de estudantes, provas e resenhas de livros poderia melhorar os LLMs, mencionando que isso seria muito interessante