GSM-Symbolic: entendendo os limites do raciocínio matemático dos grandes modelos de linguagem
- Avanços recentes nos grandes modelos de linguagem (LLMs) despertaram interesse na capacidade de raciocínio formal em matemática.
- O benchmark GSM8K é amplamente usado para avaliar o raciocínio matemático dos modelos em questões de nível de ensino fundamental.
- O desempenho dos LLMs no GSM8K melhorou significativamente nos últimos anos, mas ainda não está claro se a capacidade real de raciocínio matemático evoluiu de fato.
- Para lidar com essa questão, foi realizado um estudo em larga escala com vários modelos recentes, abertos e fechados.
- Para superar as limitações das avaliações existentes, foi introduzido o GSM-Symbolic, um benchmark aprimorado composto por templates simbólicos que permitem gerar perguntas variadas.
- O GSM-Symbolic possibilita uma avaliação mais controlada, oferecendo um indicador mais confiável para medir a capacidade de raciocínio.
- Os resultados mostram que os LLMs apresentam variabilidade perceptível ao responder diferentes instâncias da mesma pergunta.
- Em particular, no benchmark GSM-Symbolic, alterar apenas os valores numéricos das perguntas já reduz o desempenho de todos os modelos.
- Além disso, ao investigar a fragilidade do raciocínio matemático desses modelos, o estudo mostra que o desempenho cai significativamente à medida que aumenta o número de cláusulas na pergunta.
- A hipótese é que os LLMs atuais ainda não conseguem realizar raciocínio lógico genuíno e, em vez disso, replicam etapas de raciocínio presentes nos dados de treinamento.
- Adicionar uma única cláusula que pareça relevante à pergunta pode causar uma queda de desempenho de até 65% em todos os modelos mais recentes, mesmo que ela não contribua para a cadeia de raciocínio necessária para a resposta final.
Resumo do GN⁺
- Este estudo ajuda a compreender com mais nuance as capacidades e limitações do raciocínio matemático em grandes modelos de linguagem.
- O benchmark GSM-Symbolic oferece uma ferramenta para avaliar com mais precisão a capacidade de raciocínio dos modelos por meio de perguntas variadas.
- O estudo mostra que os LLMs tendem a replicar etapas de raciocínio dos dados de treinamento, em vez de realizar raciocínio lógico real.
- Outros benchmarks recomendados para avaliar a capacidade de raciocínio matemático incluem MATH e MATHQA.
1 comentários
Opiniões no Hacker News