1 pontos por GN⁺ 2024-12-24 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O novo modelo de linguagem o3 da OpenAI marcou 25% no difícil benchmark de matemática FrontierMath, reacendendo a dúvida sobre se a IA matemática pode ultrapassar o nível de graduação
  • O FrontierMath é um conjunto de dados privado criado pela Epoch AI, composto por centenas de problemas difíceis de matemática que exigem respostas numéricas verificáveis automaticamente, em vez de “provas de teoremas”
  • As 5 amostras públicas não eram fáceis nem para matemáticos pesquisadores; Tao as classificou como “extremamente desafiadoras”, mas Borcherds considerou que produzir uma resposta numérica não é o mesmo que uma prova original
  • Como Elliot Glazer, da Epoch AI, revelou que 25% dos problemas eram do tipo “IMO/estilo graduação”, é difícil confirmar, por causa da natureza privada do conjunto de dados, até que nível de dificuldade o resultado de 25% do o3 realmente chegou
  • Para os matemáticos, o objetivo mais importante do que “encontre este número” é provar corretamente um teorema e explicá-lo de forma compreensível para humanos, e abordagens baseadas em modelos de linguagem e em Lean têm limitações diferentes

o3 e FrontierMath abalaram a linha de base

  • o3 é o novo modelo de linguagem da OpenAI e obteve 25% no FrontierMath
  • Desde o ChatGPT, os modelos de linguagem públicos vêm melhorando rapidamente, e sua capacidade de resolver problemas de matemática está sendo avaliada dentro desse movimento
  • FrontierMath é um conjunto de dados privado de problemas de matemática criado pela Epoch AI; o resumo do artigo diz que ele contém “centenas” de problemas difíceis
  • Se o conjunto de dados for tornado público, os modelos de linguagem podem aprender os problemas e as respostas, por isso até informações básicas, como o número de questões, estão sendo tratadas com cautela
    • Se problemas e respostas forem divulgados, o modelo pode simplesmente reproduzir respostas que já viu
    • Por isso, é difícil verificar de fora a dificuldade real e a representatividade de um benchmark privado

Formato e dificuldade dos problemas do FrontierMath

  • Os problemas do FrontierMath são mais próximos do formato “encontre este número” do que de “prove este teorema”
  • Os problemas precisam ter respostas claras e computáveis, e sua verificação deve ser automática
  • As respostas das 5 questões de amostra divulgadas são todas inteiros positivos
    • Entre os exemplos de resposta estão 9811 e 367707
    • As outras três respostas são maiores, projetadas para dificultar acertos por chute aleatório
  • As amostras públicas não são triviais nem para matemáticos pesquisadores
    • O autor afirma que entendeu os enunciados das 5 questões
    • A terceira questão pôde ser resolvida relativamente rápido, e para a quinta ele conhecia um método padrão usando as Weil conjectures for curves, mas não calculou a resposta de 13 dígitos
    • Ele julgou não conseguir resolver a primeira e a segunda, e achou que talvez pudesse avançar na quarta com esforço, mas leu a solução sem tentar
  • Um aluno de graduação de matemática inteligente, em geral, pode ter dificuldade para resolver sequer uma dessas questões
    • A primeira questão provavelmente exigiria nível de doutorado ou superior em teoria analítica dos números

Vantagens e limites de benchmarks com resposta numérica

  • O principal motivo de o FrontierMath usar problemas com resposta numérica é o custo de correção
  • Para avaliar centenas de respostas do tipo “prove este teorema”, seria preciso contar com especialistas humanos
    • Em 2024, considera-se difícil delegar esse nível de correção a máquinas
  • Já uma lista de respostas numéricas pode ser comparada muito rapidamente por um computador
  • Borcherds considera que matemáticos pesquisadores passam a maior parte do tempo buscando provas e ideias, e não números
  • Ainda assim, o FrontierMath tem valor na área de IA matemática
    • Há escassez extrema de conjuntos de dados difíceis
    • Criar conjuntos assim é muito difícil ou muito caro
    • Um texto recente de Frieder e outros discute mais profundamente as limitações dos conjuntos de dados de IA matemática

Por que os 25% do o3 surpreenderam

  • A percepção anterior era de que a IA matemática estava mais próxima do nível de graduação ou anterior à graduação
  • A IA está ficando muito forte em problemas de olimpíada resolvidos por estudantes brilhantes do ensino médio
  • Parece claro que, dentro de um ano, a IA conseguirá passar em provas de matemática de graduação
    • Provas de graduação às vezes incluem problemas padronizados que um aluno com entendimento básico do curso consegue resolver
    • Máquinas podem acertar esse tipo de problema com facilidade
  • Mas o salto além da reutilização de ideias padronizadas rumo a ideias inovadoras de nível avançado de graduação ou início de doutorado parece grande
  • Respostas recentes do ChatGPT para a prova Putnam ficaram aquém do esperado
    • Apenas a questão B4 pareceu ter sido respondida de forma apropriada pela máquina
    • A maioria das outras respostas foi vista como algo entre 1 e 2 pontos em 10
  • Por isso, esperava-se que o FrontierMath fosse praticamente inalcançável por alguns anos

A incerteza deixada por um conjunto de dados privado

  • Elliot Glazer, da Epoch AI, declarou no Reddit que 25% dos problemas do FrontierMath eram do tipo IMO/estilo graduação
  • Essa afirmação não parece combinar bem com as 5 questões públicas
    • Até a mais fácil das amostras públicas envolvia uma abordagem com as Weil conjectures for curves
    • Ou então poderia exigir uma dolorosa busca exaustiva para fatorar um polinômio cúbico de grau 10^12 sobre um corpo finito
  • Essa informação deixa dúvidas sobre a dificuldade real do conjunto de dados privado e se as 5 questões públicas são uma amostra representativa
  • Como o conjunto de dados é privado, essas dúvidas não são fáceis de verificar
  • Se 25% forem problemas de nível de graduação, então os 25% do o3 podem ser menos surpreendentes
  • O grande avanço esperado seria o momento em que a IA mostrar desempenho significativo nos 50% seguintes de problemas descritos como nível de “qual”

“Prove este teorema” continua sendo outro problema

  • Na pesquisa em matemática, a pergunta importante costuma ser “prove este teorema
  • Mesmo que surjam máquinas com desempenho sobre-humano em problemas de encontrar números, sua aplicabilidade pode continuar limitada em muitas áreas da matemática de pesquisa
  • O maior caso de sucesso de 2024 é apontado como o AlphaProof da DeepMind
    • O AlphaProof resolveu 4 dos 6 problemas da IMO 2024
    • Os problemas eram do tipo “prove este teorema” ou “encontre o número e prove que ele está correto”
    • Três deles foram produzidos como provas totalmente formalizadas em Lean
  • Lean é um provador de teoremas interativo, e o mathlib é uma biblioteca matemática que inclui várias técnicas necessárias para resolver problemas da IMO e mais
  • As soluções do sistema da DeepMind foram verificadas por humanos e validadas como respostas de “nota máxima”
  • Ainda assim, embora os problemas da IMO sejam muito difíceis, suas soluções usam apenas técnicas de nível escolar, o que significa uma volta a problemas de nível de ensino médio
  • A expectativa é que em 2025 as máquinas mostrem desempenho de nível de medalha de ouro na IMO

Quem vai corrigir as respostas da máquina?

  • É possível imaginar que, em julho de 2025, na IMO, não apenas estudantes humanos, mas também máquinas participem
  • Os sistemas de máquina podem se dividir em dois tipos
    • Sistemas que enviam respostas em linguagens de verificação de prova por computador, como Lean, Rocq e Isabelle
    • Modelos de linguagem que enviam respostas em linguagem humana
  • Respostas enviadas em linguagem de verificador de provas exigem apenas confirmar se o enunciado foi traduzido corretamente
    • Depois disso, se a prova compilar, já se sabe na prática que é uma resposta de “nota máxima”
  • Já modelos de linguagem que enviam respostas em linguagem natural são diferentes
    • Mesmo que a resposta pareça plausível, um corretor humano precisa lê-la e avaliá-la com cuidado
    • Não há garantia de que seja uma resposta de nota máxima
  • Considera-se que os modelos de linguagem ainda são pelo menos uma ordem de grandeza menos precisos do que especialistas humanos em raciocínio lógico
  • Há a preocupação de que uma “prova” do modelo de linguagem para a hipótese de Riemann possa misturar afirmações ambíguas ou imprecisas no meio de 10 páginas de matemática correta
  • Já os provadores de teoremas, ao contrário, seriam pelo menos uma ordem de grandeza mais precisos
    • Nos casos vistos pelo autor em que o Lean não aceitou um argumento da literatura matemática humana, o lado humano estava errado

Objetivo restante: prova correta e compreensão humana

  • O que os matemáticos querem não é apenas “prove este teorema”, mas uma prova correta e uma explicação compreensível para humanos
  • Na abordagem com modelos de linguagem, a “correção” continua sendo a grande preocupação
  • Na abordagem com provadores de teoremas, a preocupação é se isso ocorre de um modo compreensível para humanos
  • Ainda há muito trabalho a fazer
  • O ritmo de progresso é rápido, mas ninguém sabe quando a barreira da graduação será superada

Ainda não há comentários.

Ainda não há comentários.