1 pontos por GN⁺ 2025-01-02 | 1 comentários | Compartilhar no WhatsApp
  • Apresentação do benchmark Putnam-AXIOM

    • O Putnam-AXIOM é um benchmark desafiador para avaliar a capacidade de raciocínio matemático de grandes modelos de linguagem (LLM).
    • Inclui 236 problemas matemáticos e soluções passo a passo da William Lowell Putnam Mathematical Competition.
    • Foi criado o benchmark Putnam-AXIOM Variation, aplicando variações funcionais a 52 problemas para mitigar a contaminação de dados.
    • Ao alterar programaticamente elementos dos problemas (variáveis, constantes etc.), é possível gerar infinitamente novos problemas que não estão disponíveis online.
  • Importância e resultados do benchmark

    • A maioria dos modelos teve uma redução significativa de precisão nos problemas transformados em comparação aos originais.
    • O modelo o1-preview da OpenAI obteve 41,95% de precisão no Putnam-AXIOM Original, mas experimentou cerca de 30% de queda de precisão no dataset transformado.
  • Feedback dos revisores

    • Revisor 9XA: o benchmark foi projetado para minimizar ruídos em etapas como formatação de problemas e verificação de equivalência de respostas, mas o nível de prevenção de contaminação pode não ser suficiente. Como a variação funcional foi aplicada apenas a 53 problemas, o poder da avaliação pode ser reduzido.
    • Revisor krr4: o dataset, por ser composto de apenas 236 exemplos, pode não ser suficientemente persuasivo como benchmark. Como a maioria dos modelos apresentou baixa precisão, a dificuldade dos problemas deveria ser mais hierárquica.
    • Revisor Nbvs: é uma boa contribuição por fornecer um conjunto desafiador de problemas para avaliar a capacidade de resolução matemática. A alteração dos problemas pode ser uma boa estratégia para reduzir vazamentos na estrutura atual de avaliação baseada em boxes.
    • Revisor MsMi: um novo benchmark de raciocínio difícil, em que até modelos fortes não se saem bem. Exigir o comando "\boxed{}" limita a expressividade do benchmark.
  • Perguntas e sugestões adicionais

    • Quantidade de problemas mal pontuados por não usar corretamente o comando "\boxed{}".
    • Pergunta sobre uma abordagem algorítmica para continuar editando os problemas e manter um dataset que nenhum modelo consiga memorizar.

1 comentários

 
GN⁺ 2025-01-02
Comentário do Hacker News
  • Há comentários lembrando do período em que o ChatGPT respondeu corretamente à pergunta “qual é mais pesado, uma pena de 10 libras ou um tijolo de 10 libras?”, mas observaram que o desempenho cai quando o problema é ligeiramente modificado.

    • Por exemplo, deu uma resposta errada para “qual é mais pesado: 9,99 libras de aço ou 10,01 libras de algodão?”
    • Para analisar a capacidade real do modelo, é preciso sair dos dados em que foi treinado.
  • Há quem queira ver um experimento em que o modelo seja treinado em todos os dados digitalizados até 1905 e depois perguntado sobre a fórmula de equivalência massa-energia.

    • A expectativa é que isso possa resolver o debate sobre se o reconhecimento de padrões é uma forma de inteligência.
  • Há uma opinião de que o desempenho real de LLMs em tarefas se assemelha ao de alunos de “caminhada de prova” para exames no estilo asiático.

    • Basicamente, é a capacidade de repetir perfeitamente sem compreender o significado.
  • Há comentários de que uma leve alteração na entrada pode fazer o modelo voltar para a pergunta esperada e gerar uma resposta errada.

    • Incentivar o modelo a avaliar o problema por vários ângulos e tirar uma conclusão pode render respostas melhores.
  • Há comentários de que os LLMs ainda são excelentes para resolver problemas matemáticos e de programação competitiva muito difíceis.

    • Mas eles tendem a se sair melhor com problemas já vistos antes.
  • Há a questão de até que ponto é um segredo de bastidor que o modelo está em hardcoding para benchmarks aleatórios atuais.

  • Há quem diga que a reconstrução de um problema também pode confundir humanos.

    • Há interesse em ver o efeito de reconstruir problemas recentes.
  • Há a visão de que é muito eficaz em correspondência de padrões, mas falha quando os padrões mudam.

    • Foi apontado que ele foi treinado de forma tradicional, sem cálculo em tempo de teste ou busca em árvore de Monte Carlo.
  • Há observações de que a OpenAI não afirmou melhora de desempenho em um dataset específico.

    • Pode-se concluir que o desempenho aumenta bastante para perguntas presentes nesse dataset.
  • Houve uma melhoria de desempenho do o1-preview para o1, e foi dado resposta correta para problemas reformulados.

    • O SOTA está mudando rapidamente.