Precisão do O1-preview cai cerca de 30% com pequenas variações nos problemas do Putnam
(openreview.net)-
Apresentação do benchmark Putnam-AXIOM
- O Putnam-AXIOM é um benchmark desafiador para avaliar a capacidade de raciocínio matemático de grandes modelos de linguagem (LLM).
- Inclui 236 problemas matemáticos e soluções passo a passo da William Lowell Putnam Mathematical Competition.
- Foi criado o benchmark Putnam-AXIOM Variation, aplicando variações funcionais a 52 problemas para mitigar a contaminação de dados.
- Ao alterar programaticamente elementos dos problemas (variáveis, constantes etc.), é possível gerar infinitamente novos problemas que não estão disponíveis online.
-
Importância e resultados do benchmark
- A maioria dos modelos teve uma redução significativa de precisão nos problemas transformados em comparação aos originais.
- O modelo o1-preview da OpenAI obteve 41,95% de precisão no Putnam-AXIOM Original, mas experimentou cerca de 30% de queda de precisão no dataset transformado.
-
Feedback dos revisores
- Revisor 9XA: o benchmark foi projetado para minimizar ruídos em etapas como formatação de problemas e verificação de equivalência de respostas, mas o nível de prevenção de contaminação pode não ser suficiente. Como a variação funcional foi aplicada apenas a 53 problemas, o poder da avaliação pode ser reduzido.
- Revisor krr4: o dataset, por ser composto de apenas 236 exemplos, pode não ser suficientemente persuasivo como benchmark. Como a maioria dos modelos apresentou baixa precisão, a dificuldade dos problemas deveria ser mais hierárquica.
- Revisor Nbvs: é uma boa contribuição por fornecer um conjunto desafiador de problemas para avaliar a capacidade de resolução matemática. A alteração dos problemas pode ser uma boa estratégia para reduzir vazamentos na estrutura atual de avaliação baseada em boxes.
- Revisor MsMi: um novo benchmark de raciocínio difícil, em que até modelos fortes não se saem bem. Exigir o comando "\boxed{}" limita a expressividade do benchmark.
-
Perguntas e sugestões adicionais
- Quantidade de problemas mal pontuados por não usar corretamente o comando "\boxed{}".
- Pergunta sobre uma abordagem algorítmica para continuar editando os problemas e manter um dataset que nenhum modelo consiga memorizar.
1 comentários
Comentário do Hacker News
Há comentários lembrando do período em que o ChatGPT respondeu corretamente à pergunta “qual é mais pesado, uma pena de 10 libras ou um tijolo de 10 libras?”, mas observaram que o desempenho cai quando o problema é ligeiramente modificado.
Há quem queira ver um experimento em que o modelo seja treinado em todos os dados digitalizados até 1905 e depois perguntado sobre a fórmula de equivalência massa-energia.
Há uma opinião de que o desempenho real de LLMs em tarefas se assemelha ao de alunos de “caminhada de prova” para exames no estilo asiático.
Há comentários de que uma leve alteração na entrada pode fazer o modelo voltar para a pergunta esperada e gerar uma resposta errada.
Há comentários de que os LLMs ainda são excelentes para resolver problemas matemáticos e de programação competitiva muito difíceis.
Há a questão de até que ponto é um segredo de bastidor que o modelo está em hardcoding para benchmarks aleatórios atuais.
Há quem diga que a reconstrução de um problema também pode confundir humanos.
Há a visão de que é muito eficaz em correspondência de padrões, mas falha quando os padrões mudam.
Há observações de que a OpenAI não afirmou melhora de desempenho em um dataset específico.
Houve uma melhoria de desempenho do o1-preview para o1, e foi dado resposta correta para problemas reformulados.