2 pontos por GN⁺ 2024-10-13 | 1 comentários | Compartilhar no WhatsApp

GSM-Symbolic: entendendo os limites do raciocínio matemático dos grandes modelos de linguagem

  • Avanços recentes nos grandes modelos de linguagem (LLMs) despertaram interesse na capacidade de raciocínio formal em matemática.
  • O benchmark GSM8K é amplamente usado para avaliar o raciocínio matemático dos modelos em questões de nível de ensino fundamental.
  • O desempenho dos LLMs no GSM8K melhorou significativamente nos últimos anos, mas ainda não está claro se a capacidade real de raciocínio matemático evoluiu de fato.
  • Para lidar com essa questão, foi realizado um estudo em larga escala com vários modelos recentes, abertos e fechados.
  • Para superar as limitações das avaliações existentes, foi introduzido o GSM-Symbolic, um benchmark aprimorado composto por templates simbólicos que permitem gerar perguntas variadas.
  • O GSM-Symbolic possibilita uma avaliação mais controlada, oferecendo um indicador mais confiável para medir a capacidade de raciocínio.
  • Os resultados mostram que os LLMs apresentam variabilidade perceptível ao responder diferentes instâncias da mesma pergunta.
  • Em particular, no benchmark GSM-Symbolic, alterar apenas os valores numéricos das perguntas já reduz o desempenho de todos os modelos.
  • Além disso, ao investigar a fragilidade do raciocínio matemático desses modelos, o estudo mostra que o desempenho cai significativamente à medida que aumenta o número de cláusulas na pergunta.
  • A hipótese é que os LLMs atuais ainda não conseguem realizar raciocínio lógico genuíno e, em vez disso, replicam etapas de raciocínio presentes nos dados de treinamento.
  • Adicionar uma única cláusula que pareça relevante à pergunta pode causar uma queda de desempenho de até 65% em todos os modelos mais recentes, mesmo que ela não contribua para a cadeia de raciocínio necessária para a resposta final.

Resumo do GN⁺

  • Este estudo ajuda a compreender com mais nuance as capacidades e limitações do raciocínio matemático em grandes modelos de linguagem.
  • O benchmark GSM-Symbolic oferece uma ferramenta para avaliar com mais precisão a capacidade de raciocínio dos modelos por meio de perguntas variadas.
  • O estudo mostra que os LLMs tendem a replicar etapas de raciocínio dos dados de treinamento, em vez de realizar raciocínio lógico real.
  • Outros benchmarks recomendados para avaliar a capacidade de raciocínio matemático incluem MATH e MATHQA.

1 comentários

 
GN⁺ 2024-10-13
Opiniões no Hacker News
  • A queda de desempenho dos LLMs é semelhante à capacidade de resolução de problemas de calouros universitários. Eles resolvem bem problemas simples, mas a precisão cai em questões que exigem conectar várias etapas. Isso sugere que os LLMs conseguem ter um raciocínio lógico no nível de um aluno recém-formado no ensino médio
    • Por exemplo, o desempenho dos LLMs cai bastante em problemas que incluem informações desnecessárias. Isso também pode acontecer com humanos ao ler problemas com informações irrelevantes
  • Pesquisas sobre a fragilidade do raciocínio matemático mostram que o desempenho piora à medida que aumenta o número de cláusulas na pergunta. Isso pode ser porque os LLMs não conseguem fazer raciocínio lógico genuíno
    • No processo de tokenização, a previsão de problemas aritméticos simples perde o sentido. Isso sugere a necessidade de usar ferramentas, mas é algo negativo para o raciocínio lógico genuíno
  • Aparecem resultados semelhantes ao problema de "Alice no País das Maravilhas". Isso pode ser um problema de modelos que estão em um estado intermediário entre correspondência de padrões e raciocínio
    • Isso sugere que não dá para confiar nos resultados de benchmarks de LLM relacionados a matemática e raciocínio. As letras, os números e a estrutura das frases do problema têm grande impacto nos resultados
  • No benchmark GSM-Symbolic, mudar apenas os valores numéricos já reduz o desempenho de todos os modelos. Isso é evidência de overfitting e mostra que os LLMs têm limitações fundamentais para aprender raciocínio matemático
  • A forma como os LLMs "pensam" está em um nível suficiente para passar pela maior parte do currículo escolar. Mas eles podem ter dificuldade quando um professor cria problemas que não dependem de correspondência de padrões
  • Em quebra-cabeças lógicos bem conhecidos, os LLMs deixam de conseguir resolver o problema quando certos elementos são alterados. Isso mostra que os LLMs não conseguem fazer raciocínio formal
  • Os LLMs não conseguem fazer raciocínio formal, mas podem resolver muitos problemas lógicos ao aplicar "etapas de raciocínio" presentes nos dados de treinamento. Isso é uma dicotomia interessante
  • Seria interessante ver pesquisas que mostrem os limites do raciocínio matemático em humanos e animais. Pode haver ideias que os humanos não conseguem compreender, e isso levanta a questão de se seria possível criar máquinas capazes de raciocinar de formas que os humanos não conseguem