Precisão do O1-preview cai cerca de 30% com pequenas variações nos problemas do Putnam

(openreview.net)

1 pontos por GN⁺ 2025-01-02 | 1 comentários | Compartilhar no WhatsApp

Apresentação do benchmark Putnam-AXIOM
- O Putnam-AXIOM é um benchmark desafiador para avaliar a capacidade de raciocínio matemático de grandes modelos de linguagem (LLM).
- Inclui 236 problemas matemáticos e soluções passo a passo da William Lowell Putnam Mathematical Competition.
- Foi criado o benchmark Putnam-AXIOM Variation, aplicando variações funcionais a 52 problemas para mitigar a contaminação de dados.
- Ao alterar programaticamente elementos dos problemas (variáveis, constantes etc.), é possível gerar infinitamente novos problemas que não estão disponíveis online.
Importância e resultados do benchmark
- A maioria dos modelos teve uma redução significativa de precisão nos problemas transformados em comparação aos originais.
- O modelo o1-preview da OpenAI obteve 41,95% de precisão no Putnam-AXIOM Original, mas experimentou cerca de 30% de queda de precisão no dataset transformado.
Feedback dos revisores
- Revisor 9XA: o benchmark foi projetado para minimizar ruídos em etapas como formatação de problemas e verificação de equivalência de respostas, mas o nível de prevenção de contaminação pode não ser suficiente. Como a variação funcional foi aplicada apenas a 53 problemas, o poder da avaliação pode ser reduzido.
- Revisor krr4: o dataset, por ser composto de apenas 236 exemplos, pode não ser suficientemente persuasivo como benchmark. Como a maioria dos modelos apresentou baixa precisão, a dificuldade dos problemas deveria ser mais hierárquica.
- Revisor Nbvs: é uma boa contribuição por fornecer um conjunto desafiador de problemas para avaliar a capacidade de resolução matemática. A alteração dos problemas pode ser uma boa estratégia para reduzir vazamentos na estrutura atual de avaliação baseada em boxes.
- Revisor MsMi: um novo benchmark de raciocínio difícil, em que até modelos fortes não se saem bem. Exigir o comando "\boxed{}" limita a expressividade do benchmark.
Perguntas e sugestões adicionais
- Quantidade de problemas mal pontuados por não usar corretamente o comando "\boxed{}".
- Pergunta sobre uma abordagem algorítmica para continuar editando os problemas e manter um dataset que nenhum modelo consiga memorizar.

1 comentários

GN⁺ 2025-01-02

Opiniões no Hacker News

Lembro que, quando esse problema apareceu pela primeira vez, as pessoas ficaram empolgadas porque o ChatGPT acertou “o que pesa mais, 10 libras de penas ou 10 libras de tijolos?”
Mas, claro, ele acertou, e é bem provável que essa pergunta estivesse nos dados de treinamento
Se você só trocar os substantivos ou mudar os números para fazer um dos lados realmente pesar mais, o desempenho fica irregular
Acabei de perguntar no chatgpt.com: “o que pesa mais, um saco de lingotes de aço de 9,99 libras ou um saco de algodão fofo de 10,01 libras?”, e na primeira resposta ele disse que os lingotes de aço eram mais pesados, mas no fim disse que o algodão era um pouco mais pesado, dando uma resposta certa e errada ao mesmo tempo
Para avaliar bem esse tipo de capacidade, é preciso sair dos dados de treinamento; problemas que vêm à cabeça em 5 segundos geralmente já foram vistos muitas vezes ou também são fáceis para outras pessoas imaginarem
Basta sair um pouco do caminho familiar para o desempenho em matemática parecer muito menos impressionante
- No ChatGPT Plus, em uma nova sessão, sem induzir a resposta, olhando só a primeira resposta, GPT-4, GPT-4o e GPT o1 respondem corretamente que o saco de algodão de 10,01 libras é mais pesado que o saco de lingotes de aço de 9,99 libras
  Eles explicam que, independentemente do material ou da densidade, é uma comparação de pesos na mesma unidade, então 10,01 é maior que 9,99
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  Até agora, o o1-mini está lidando bem com todas as tarefas que as pessoas neste tópico disseram que LLMs não conseguem fazer
- Se você tentar sem assinatura, hoje é bem provável que receba uma resposta gerada principalmente pelo 4o-mini
  Esse não é o o1, o1-mini nem o antigo o1-preview, a família de modelos de raciocínio tratada no artigo linkado
  Pode nem ser o 4o, o principal modelo sem raciocínio; o “4o auto” exibido em contas gratuitas parece ser mais um mecanismo para escolher automaticamente o modelo de forma eficiente em custo do que um nome de modelo
  Sem assinatura do ChatGPT, também não dá mais para escolher um modelo específico com limite de uso, como antes
- Perguntei ao Claude 3.5 Sonnet a clássica charada do médico e, embora a resposta tenha melhorado com a adição do processo de pensamento, também aparecem sinais de que ele não entende de fato
  À pergunta “uma mulher e seu filho sofrem um acidente de carro; a mulher morre, e o médico que vê a criança diz ‘não posso operar este menino, ele é meu filho’. Como isso é possível?”, ele respondeu “o médico é o pai do menino” e explicou que essa é uma charada clássica que mostra viés de gênero
  Mas a intenção original era perguntar pela possibilidade de o médico ser a mãe; ele até acrescentou a possibilidade de pais do mesmo sexo, mas desviou do ponto central
- A primeira variação que encontrei foi “o que pesa mais, 1 libra de penas ou 1 libra de ouro?”, e essa é uma pergunta bem mais difícil
  A resposta que ouvi foi que o ouro é medido em peso troy e as penas em peso avoirdupois; como uma libra troy tem 12 onças e uma libra avoirdupois tem 16 onças, as penas são mais pesadas
  Tudo isso é verdade, mas a resposta é incompleta
  Assim como a libra avoirdupois é mais pesada que a libra troy, a onça avoirdupois é mais leve que a onça troy
  Só que essa diferença não é grande o bastante para inverter a diferença entre 16 onças e 12 onças
  Se você não reconhecer a diferença entre as onças, a resposta oficial fica tão errada quanto a resposta ingênua
Um experimento que na prática seria difícil, mas que eu gostaria de ver, é treinar com todo o material digitalizado anterior a 1905 — artigos, cartas, livros, transmissões, aulas etc. — e então perguntar pela equivalência massa-energia
Se saísse uma resposta clara, acho que isso poderia encerrar a discussão sobre se reconhecimento de padrões é uma forma de inteligência
- No momento em que se considera que massa e energia podem ser equivalentes, só com análise dimensional já restam poucas opções para a fórmula
  O interessante em E=mc^2 não é a fórmula em si, mas a afirmação de que massa é uma forma de energia e as observações ao redor sobre o universo
  O insight real de 1905 estava mais em fazer a pergunta certa e imaginar que o princípio de equivalência poderia realmente valer
  Boa parte da matemática já existia antes de 1905 e poderia entrar nos dados de treinamento de uma IA: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- Ouvi uma ideia parecida em um podcast com Adam Brown
  A ideia é que, se uma IA conseguisse derivar a teoria da relatividade especial usando apenas livros e artigos anteriores a Einstein, teríamos alcançado o próximo marco do tipo game changer no avanço do raciocínio artificial
- Disputas de patente também deveriam ser julgadas assim
  Se um LLM conseguir descobrir, então não há novidade
- Também me pergunto se os dados anteriores a 1905 são suficientes para um modelo dizer “hello world” de forma estável
  Acho que não existiriam os terabytes de dados de treinamento necessários para um LLM decente; provavelmente ficaria na casa dos gigabytes
Em tarefas reais, o desempenho dos LLMs se parece muito com o de um aluno fazendo estudo de véspera para uma prova ao estilo asiático
Há a capacidade de cuspir tudo perfeitamente, mas não há conceito de significado
- o3 acertou 25% em problemas inéditos do FrontierMath
  É verdade que ele se sai melhor quando a resposta está diretamente no dataset, mas, quanto à novidade dos problemas retidos, já passou do humano médio
- Basta olhar para o JEE Advanced
- No fim, parece mais uma prova de que conseguimos reproduzir perfeitamente a estupidez humana
Parece que, se você muda a entrada só um pouquinho, o modelo volta para a pergunta que esperava e erra
Se mudar um pouco mais e acrescentar uma técnica de prompt genérica como “primeiro decomponha em fatos conhecidos, traga o conhecimento de contexto relevante, depois avalie por vários ângulos e chegue a uma conclusão; não escreva imediatamente a primeira conclusão óbvia”, a resposta deve melhorar muito
Isso parece menos “LLMs são raciocinadores burros que não conseguem resolver nem esse tipo de problema sem memorização” e mais “LLMs dão respostas imediatas ruins quando tentamos enganá-los dentro de um padrão esperado”
É verdade que LLMs memorizam, mas há dois lados nisso
Se você torna a pergunta parecida demais com uma memorizada, a percepção pode oscilar, como quando um humano reage instintivamente a algo que parece um rosto e depois reavalia
É interessante, mas há alguns pontos a observar
Primeiro, o o1 ainda passa de 40% nos problemas Putnam modificados, o que é um feito difícil até para a maioria dos estudantes de matemática
Segundo, o o3 resolveu 25% do dataset da Epoch AI
Houve também um texto interessante questionando quão difíceis esses problemas realmente eram, mas ainda assim é muito impressionante
A conclusão justa parece ser que modelos de raciocínio ainda resolvem bem problemas muito difíceis de matemática e de programação competitiva, mas são mais fortes em problemas que já viram
- Os comentários desta thread estão completamente desconectados do conteúdo do paper, e o título também é quase um chamariz para indignação e não reflete o conteúdo do paper
  O fato de conseguir resolver uma parte considerável desses problemas já é uma realização bastante surpreendente, mesmo que às vezes seja enganado por pequenas variações
  Jogar palavras como “fraude” ou “falso” é mais próximo de wishful thinking ou fuga da realidade
Fico me perguntando se é um segredo aberto que os modelos hoje estão sendo hardcoded para benchmarks aleatórios
Perguntar problemas Putnam a um chatbot já parece estranho por si só
- Porque as pessoas continuam perguntando problemas de matemática a esses modelos e, quando eles acertam, citam isso como prova de que conseguem fazer raciocínio matemático de verdade
  Como é difícil julgar o que o modelo sabe, também é difícil distinguir quando ele está apenas cuspindo algo específico que aprendeu no treinamento
- Não é hardcoding; acho mais provável que esses problemas estejam, de alguma forma, nos dados de treinamento
- Eles também estão passando em provas que, por design, não podem ser hardcoded
  Ainda há todo tipo de falhas e problemas de consistência, mas é tolice ficar irritado com ele responder “2+2=4” só porque alguém o treinou com a resposta de 2+2
- Este trabalho é parecido com aplicar o paper GSM-Symbolic ao Putnam: https://arxiv.org/html/2410.05229v1
  Daqui para frente, o desempenho de LLMs também deveria ser reportado em benchmarks perturbados
Eles são detectores de padrões muito eficazes
Se você muda o padrão, eles deixam de funcionar
Lembro que alguém, talvez @tszzl(roon), disse no X que o o1 ou o3 ainda foi treinado da forma tradicional e não tem computação em tempo de teste como o AlphaGo nem busca em árvore de Monte Carlo
Se isso for verdade, ele ainda está prevendo a próxima palavra com base nos dados de treinamento, e mesmo em pequenas variações tende a seguir o caminho mais plausível vindo do treinamento
Mas, se computação em tempo de teste ainda não foi explorada de verdade, ainda há bastante margem para melhorar o desempenho
Outro motivo pelo qual é difícil especular é que não sabemos quanto do que perguntamos está nos dados de treinamento
Mesmo em tarefas parecidas, ele pode se sair bem em algumas e falhar em outras
- Vi recentemente duas entrevistas com pesquisadores da OpenAI, e eles explicaram que o avanço da série o, diferentemente da série GPT, foi focar em computação em tempo de teste para fazê-la “pensar” mais, especialmente tentando evitar correspondência de padrões
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 e Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- Acho que eles estão usando computação em tempo de teste escalável
  Na apresentação do o3, divulgaram separadamente os números de acurácia com alta e baixa quantidade de computação, e parece difícil fazer isso no mesmo modelo sem computação em tempo de teste
  Também acho que a assinatura de 200 dólares permite rodar a computação em tempo de teste por mais tempo antes de forçar uma resposta
  Mas, se for verdade que não há computação em tempo de teste, então, olhando os experimentos da Hugging Face com modelos 1B/3B, a margem para melhorar os resultados é enorme
- A OpenAI afirmou publicamente que o o1 e o3 usam computação em tempo de teste, e também publicou um gráfico em escala logarítmica mostrando que o desempenho melhora linearmente quando a quantidade de computação cresce exponencialmente
  https://openai.com/index/learning-to-reason-with-llms/
  O que está confirmado é apenas que o modelo ou sistema executa uma cadeia de pensamento, mas a origem do fator exponencial e do ganho em desempenho de inferência provavelmente é uma árvore de pensamento, fazendo busca em árvore sobre várias cadeias de raciocínio
  A identidade de roon provavelmente é bem conhecida dentro da OpenAI e ele é funcionário, então é difícil esperar que vaze detalhes de implementação no Twitter
Esta contribuição para o workshop é boa, e o benchmark tem algum valor mesmo sem a parte de reformulação dos problemas
Mas a parte em que apenas alguns poucos problemas foram reformulados às vezes fica de fato mais confusa até para humanos, por causa de redações ruins (fig. 3) ou de quebras desnecessárias de convenções (fig. 4; em pontos bidimensionais, normalmente se usa P e coordenadas x,y)
Teria sido bom mostrar, para problemas recentes ou datados depois do treinamento, o efeito da reformulação conforme o ruído aumenta, para ajudar a separar parte dessa confusão
Também fico curioso para saber quanto melhor o o3 seria no mesmo benchmark
E o título exato desta contribuição é “Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning”
O paper tem vários exemplos de perguntas modificadas
Como houve um salto considerável do o1-preview para o o1, coloquei algumas amostras no o1 e no o1-pro, e a família o1 atual dá respostas corretas para esses problemas modificados
O estado da arte mais recente muda rapidamente
- O paper diz que, mesmo quando LLMs chegam à resposta correta, várias vezes fazem grandes saltos sem justificativa ou chegam à solução certa após passos ilógicos
  Fico curioso se você também verificou essa parte
- Defensores de LLMs são realmente cansativos
  Nem foi uma avaliação rigorosa, e esse conjunto está público desde outubro, então poderia facilmente ter sido adicionado aos dados de treinamento
Há comentários negativos demais ignorando o fato de que o o3 acertou 25% no FrontierMath
Esse é um resultado realmente absurdamente impressionante
Claro que, se a resposta do problema estiver diretamente nos dados de treinamento, o LLM se sai melhor
Mas isso não significa que ele não consiga quando a resposta não está nos dados de treinamento
- A EpochAI precisa enviar as perguntas à OpenAI para avaliar o modelo, mas não envia o gabarito
  Nesse benchmark, saltar de 2% para 25% da noite para o dia é um fenômeno um tanto interessante
- É verdade que ele foi bem no FrontierMath, mas esse não é o tema desta thread
  Por isso, esse comentário não é muito relevante

Precisão do O1-preview cai cerca de 30% com pequenas variações nos problemas do Putnam

Leituras relacionadas

1 comentários

Opiniões no Hacker News