-
Introdução ao o3 e ao FrontierMath
- O o3 é um novo modelo de linguagem da OpenAI, que marcou 25% de pontuação no conjunto de dados secreto FrontierMath.
- O FrontierMath é um conjunto de dados fechado composto por problemas difíceis publicados pela Epoch AI.
- O conjunto de dados inclui questões como "Encontre este número!" e exige respostas numéricas claras que possam ser verificadas automaticamente.
-
Dificuldade do conjunto de dados FrontierMath
- Os problemas do FrontierMath são não convencionais até mesmo para matemáticos pesquisadores, e alguns exigem conhecimento de nível de doutorado.
- Os problemas do conjunto de dados têm foco em encontrar números em vez de demonstrações matemáticas.
- Como os pesquisadores de matemática em geral usam seu tempo principalmente para encontrar provas ou ideias, o FrontierMath é um conjunto de dados importante para pesquisa de matemática em IA.
-
Capacidade matemática da IA
- A IA atualmente resolve bem questões matemáticas de nível de ensino médio e é esperado que em breve passe também em exames de matemática universitária.
- No entanto, ainda é um desafio criar ideias inovadoras de nível acima da graduação avançada.
- O fato de o3 ter alcançado 25% de pontuação é impressionante, mas há o argumento de que alguns problemas são de nível universitário.
-
O papel da IA na pesquisa matemática
- O mais importante na pesquisa matemática é resolver problemas do tipo "Prove este teorema!".
- O AlphaProof da DeepMind resolveu 4 problemas da Olimpíada Internacional de Matemática de 2024, e parte deles foi validada com prova completa no Lean.
- Para que a IA assuma um papel maior na pesquisa matemática, ela precisa ser capaz de explicar provas de maneira compreensível para humanos.
-
Perspectivas futuras
- Para que a IA assuma um papel maior na pesquisa matemática, ela precisa ser capaz de explicar provas de maneira compreensível para humanos.
- O avanço da IA está ocorrendo rapidamente, mas ainda há um longo caminho a percorrer.
- Ainda não está claro quando a IA vai superar a barreira de nível universitário.
1 comentários
Comentário do Hacker News
No tópico do Reddit, entre três níveis de dificuldade, 25% eram T1 (mais fácil) e 50% eram T2. Dos cinco problemas públicos que o autor viu, dois eram T1 e dois eram T2. Glazer descreveu o T1 como “problemas de nível IMO/graduação”, mas o autor da matéria não os vê como problemas de graduação. O LLM já está fazendo coisas que o autor diz que o surpreenderia se visse alguém fazer.
Tentei usar o ChatGPT para entender álgebra linear, mas em matemática real ele comete erros tolos com frequência. Por exemplo, indexa além da dimensão de um vetor, tenta decompor uma matriz em relação a um escalar ou tenta multiplicar matrizes com dimensões incompatíveis.
O O1 encontra erros melhor que o 4o, mas ainda comete muitos erros tolos. Sem a ajuda de alguém com algum conhecimento, é difícil gerar resultados consistentes.
Na palestra de Akshay Venkatesh, discutiu-se o futuro da “carreira em matemática” se provas teóricas automatizadas se tornarem mais comuns. Falou-se sobre como os avanços em inferência automática podem mudar a forma como a matemática de pesquisa é concebida e praticada.
Como pai de um filho de 18 anos que quer estudar matemática, o autor teme que a automação elimine essa profissão. No entanto, há dúvida de que os LLMs possam substituí-la totalmente. O autor acha que ainda haverá espaço para humanos, porque LLMs não têm tempo nem recursos infinitos para resolver tudo.
Talvez seja possível montar uma coleção de problemas que LLMs resolvam quase tudo, mas não acredito que se tornem solucionadores gerais capazes de substituir o raciocínio humano. Até que a IA desenvolva um tipo de racionalidade social independente, no sentido humano da palavra, o raciocínio não será viável.
Foram apresentados exemplos de erros básicos cometidos pelo ChatGPT. Por exemplo, ao derivar a fórmula de eficiência do Stop-and-Wait ARQ, explicou uma etapa incorreta. Em outro exemplo, ao pedir um silogismo para praticar, ofereceu um silogismo inconsistente.
Foi levantada a possibilidade de que o dataset FrontierMath tenha sido corrompido. O autor acha que, se a OpenAI soubesse as perguntas, alcançaria mais de 80% no teste FrontierMath na próxima versão.
É um problema parecido com o da pesquisa quântica. Para demonstrar progresso, é preciso fazer cálculos impossíveis para um computador tradicional. Quando o ChatGPT tirou 25%, levantou-se a questão de quão próximas as perguntas estavam do conjunto de treino.
Há preocupação com a possibilidade de um modelo de linguagem fornecer uma “prova” da Hipótese de Riemann. Matemáticos podem tentar validar essas provas, mas isso pode levar bastante tempo.
Não haverá máquinas no IMO 2025. No IMO não existe o conceito de “corretor”, e as notas são decididas por negociação entre líderes de equipe de cada país e os jurados. Também não vale a pena manter centenas de pessoas por mais tempo para pontuar trabalho de IA.