1 pontos por GN⁺ 2024-12-24 | 1 comentários | Compartilhar no WhatsApp
  • Introdução ao o3 e ao FrontierMath

    • O o3 é um novo modelo de linguagem da OpenAI, que marcou 25% de pontuação no conjunto de dados secreto FrontierMath.
    • O FrontierMath é um conjunto de dados fechado composto por problemas difíceis publicados pela Epoch AI.
    • O conjunto de dados inclui questões como "Encontre este número!" e exige respostas numéricas claras que possam ser verificadas automaticamente.
  • Dificuldade do conjunto de dados FrontierMath

    • Os problemas do FrontierMath são não convencionais até mesmo para matemáticos pesquisadores, e alguns exigem conhecimento de nível de doutorado.
    • Os problemas do conjunto de dados têm foco em encontrar números em vez de demonstrações matemáticas.
    • Como os pesquisadores de matemática em geral usam seu tempo principalmente para encontrar provas ou ideias, o FrontierMath é um conjunto de dados importante para pesquisa de matemática em IA.
  • Capacidade matemática da IA

    • A IA atualmente resolve bem questões matemáticas de nível de ensino médio e é esperado que em breve passe também em exames de matemática universitária.
    • No entanto, ainda é um desafio criar ideias inovadoras de nível acima da graduação avançada.
    • O fato de o3 ter alcançado 25% de pontuação é impressionante, mas há o argumento de que alguns problemas são de nível universitário.
  • O papel da IA na pesquisa matemática

    • O mais importante na pesquisa matemática é resolver problemas do tipo "Prove este teorema!".
    • O AlphaProof da DeepMind resolveu 4 problemas da Olimpíada Internacional de Matemática de 2024, e parte deles foi validada com prova completa no Lean.
    • Para que a IA assuma um papel maior na pesquisa matemática, ela precisa ser capaz de explicar provas de maneira compreensível para humanos.
  • Perspectivas futuras

    • Para que a IA assuma um papel maior na pesquisa matemática, ela precisa ser capaz de explicar provas de maneira compreensível para humanos.
    • O avanço da IA está ocorrendo rapidamente, mas ainda há um longo caminho a percorrer.
    • Ainda não está claro quando a IA vai superar a barreira de nível universitário.

1 comentários

 
GN⁺ 2024-12-24
Comentário do Hacker News
  • No tópico do Reddit, entre três níveis de dificuldade, 25% eram T1 (mais fácil) e 50% eram T2. Dos cinco problemas públicos que o autor viu, dois eram T1 e dois eram T2. Glazer descreveu o T1 como “problemas de nível IMO/graduação”, mas o autor da matéria não os vê como problemas de graduação. O LLM já está fazendo coisas que o autor diz que o surpreenderia se visse alguém fazer.

    • Glazer se arrependeu de chamar o T1 de “IMO/graduação”, e não foi por causa apenas da diferença entre IMO e nível de graduação em geral. Ele disse que “aplicar um resultado principal como uma caixa-preta pode reduzir a dificuldade de um problema em um nível se isso tornasse o problema excessivamente difícil”.
  • Tentei usar o ChatGPT para entender álgebra linear, mas em matemática real ele comete erros tolos com frequência. Por exemplo, indexa além da dimensão de um vetor, tenta decompor uma matriz em relação a um escalar ou tenta multiplicar matrizes com dimensões incompatíveis.

  • O O1 encontra erros melhor que o 4o, mas ainda comete muitos erros tolos. Sem a ajuda de alguém com algum conhecimento, é difícil gerar resultados consistentes.

  • Na palestra de Akshay Venkatesh, discutiu-se o futuro da “carreira em matemática” se provas teóricas automatizadas se tornarem mais comuns. Falou-se sobre como os avanços em inferência automática podem mudar a forma como a matemática de pesquisa é concebida e praticada.

  • Como pai de um filho de 18 anos que quer estudar matemática, o autor teme que a automação elimine essa profissão. No entanto, há dúvida de que os LLMs possam substituí-la totalmente. O autor acha que ainda haverá espaço para humanos, porque LLMs não têm tempo nem recursos infinitos para resolver tudo.

  • Talvez seja possível montar uma coleção de problemas que LLMs resolvam quase tudo, mas não acredito que se tornem solucionadores gerais capazes de substituir o raciocínio humano. Até que a IA desenvolva um tipo de racionalidade social independente, no sentido humano da palavra, o raciocínio não será viável.

  • Foram apresentados exemplos de erros básicos cometidos pelo ChatGPT. Por exemplo, ao derivar a fórmula de eficiência do Stop-and-Wait ARQ, explicou uma etapa incorreta. Em outro exemplo, ao pedir um silogismo para praticar, ofereceu um silogismo inconsistente.

  • Foi levantada a possibilidade de que o dataset FrontierMath tenha sido corrompido. O autor acha que, se a OpenAI soubesse as perguntas, alcançaria mais de 80% no teste FrontierMath na próxima versão.

  • É um problema parecido com o da pesquisa quântica. Para demonstrar progresso, é preciso fazer cálculos impossíveis para um computador tradicional. Quando o ChatGPT tirou 25%, levantou-se a questão de quão próximas as perguntas estavam do conjunto de treino.

  • Há preocupação com a possibilidade de um modelo de linguagem fornecer uma “prova” da Hipótese de Riemann. Matemáticos podem tentar validar essas provas, mas isso pode levar bastante tempo.

  • Não haverá máquinas no IMO 2025. No IMO não existe o conceito de “corretor”, e as notas são decididas por negociação entre líderes de equipe de cada país e os jurados. Também não vale a pena manter centenas de pessoas por mais tempo para pontuar trabalho de IA.