5 pontos por GN⁺ 2025-07-20 | 1 comentários | Compartilhar no WhatsApp
  • Um LLM experimental de raciocínio desenvolvido pela OpenAI alcançou desempenho em nível de medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025
  • Seguindo as regras oficiais da IMO, resolveu os problemas e escreveu demonstrações em linguagem natural, sendo avaliado por unanimidade por 3 corretores humanos e obtendo 35 de 42 pontos (5 de 6 problemas resolvidos)
  • Os problemas da IMO exigem pensamento criativo de altíssimo nível e provas em múltiplas etapas, demonstrando que um LLM pode ultrapassar os limites das abordagens anteriores de RL e gerar demonstrações lógicas em nível humano
  • O resultado é especialmente significativo por ter sido alcançado com aprendizado por reforço de uso geral e escalonamento de computação em tempo de teste, e não com foco em tarefas específicas
  • O modelo é uma versão de pesquisa separada do GPT-5, que será lançado em breve, e a divulgação pública desse desempenho matemático de ponta está prevista apenas para daqui a alguns meses

Visão geral do desempenho do LLM da OpenAI na IMO 2025

  • Alexander Wei (@alexwei_) da OpenAI anunciou que o mais recente modelo experimental de linguagem com raciocínio registrou pontuação no nível de medalha de ouro na IMO 2025
    • A IMO é uma competição extremamente difícil da qual participam os jovens mais talentosos em matemática do mundo, famosa por problemas que exigem raciocínio lógico complexo e compreensão conceitual profunda
  • O processo de avaliação foi conduzido da mesma forma que para participantes humanos: duas provas de 4,5 horas, uso da folha oficial de questões, sem ferramentas externas e com envio de demonstrações em linguagem natural
  • Cada problema foi corrigido de forma independente por 3 ex-medalhistas da IMO, e a nota final foi definida por consenso unânime

Significado do resultado e evolução da dificuldade

  • Os problemas da IMO exigem tempos de raciocínio muito mais longos, criatividade e argumentação complexa do que benchmarks anteriores (GSM8K, MATH, AIME)
  • Este modelo obteve 35/42 pontos ao resolver completamente 5 problemas (P1~P5), sem submissão para o P6, atendendo ao critério real de medalha de ouro da IMO
  • A capacidade de gerar demonstrações lógicas com várias páginas supera as limitações do aprendizado por reforço (RL) anterior

Abordagem de pesquisa e contexto do avanço em IA

  • O alto desempenho foi alcançado não por um modelo voltado apenas para resolver problemas específicos, mas com base em RL de uso geral e escalonamento de computação
  • Houve sucesso na geração de saídas criativas complexas mesmo sem a estrutura clara de recompensas normalmente oferecida pelo RL tradicional
  • Trata-se de um modelo experimental, separado do GPT-5 que será lançado em breve, e não há previsão de disponibilizar ao público esse nível de capacidade matemática nos próximos meses

Perspectivas futuras e menções da comunidade

  • A velocidade do avanço da capacidade matemática da IA está muito à frente do que se esperava (comparado à previsão de 30% no benchmark MATH em 2021, agora com medalha de ouro na IMO)
  • Alexander também parabenizou todos os participantes da IMO 2025 e destacou que há muitos ex-participantes da IMO na equipe
  • As soluções do modelo para os problemas da IMO 2025 também devem ser divulgadas, embora em um estilo experimental

1 comentários

 
GN⁺ 2025-07-20
Comentários do Hacker News
  • Noam Brown: ao trabalhar em um laboratório de ponta, normalmente você acaba vendo novas capacidades alguns meses antes, mas este resultado foi um avanço realmente novo, usando técnicas desenvolvidas muito recentemente; foi algo surpreendente até para os pesquisadores da OpenAI, e só hoje todo mundo pôde ver onde fica a fronteira do estado da arte
    Além disso, esse resultado foi puxado por uma equipe pequena, e Alex Wei conseguiu transformar em resultado concreto uma ideia de pesquisa em que pouca gente acreditava; a longa trajetória de pesquisa e engenharia da OpenAI e da comunidade de IA também teve grande papel nisso
    Link: https://x.com/polynoamial/status/1946478258968531288

    • Espero que essa nova técnica não tenha sido treinar nos dados de teste /brincadeira
  • Curiosamente, chama atenção o fato de as soluções da IMO usarem um vocabulário bastante restrito
    Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Não há motivo para usar muitas palavras quando menos palavras funcionam melhor”
    E vale notar que o próprio Alex Wei também é medalhista de ouro da IOI

    • Por outro lado, é interessante como isso se parece com as anotações que um participante real deixaria enquanto resolve o problema; reduzir palavras desnecessárias diminui o ruído da informação e ajuda na concentração, e como LLMs geram um token por vez e têm limite de contexto, fico me perguntando se usar só tokens significativos pode levar a uma linha de raciocínio mais longa e coerente
    • É curioso que ele tenha ganhado ouro na IOI (Olimpíada de Informática), enquanto a discussão aqui é sobre a IMO (Olimpíada de Matemática)
    • Terence Tao também previu recentemente em um podcast que um LLM ganharia ouro este ano
    • Em transformers, cada token leva o mesmo tempo para ser gerado, independentemente do significado; se você cortar partes repetitivas ou desnecessárias do texto, a velocidade aumenta bastante
    • Fiquei com vontade de perguntar se “see the world” significa “ver o mundo” ou se é um trocadilho sonoro com “seaworld”
  • Para quem menospreza isso por ser de “nível de ensino médio”, recomendo tentar resolver um problema da IMO; todos estão públicos, inclusive os deste ano
    Link: https://www.imo-official.org/problems.aspx
    Minha cabeça já está girando

    • A propósito, existem vídeos mostrando como esse tipo de problema é realmente pensado e resolvido na prática
    • Gosto de assistir a vídeos no YouTube de soluções desse tipo de problema; na superfície parece simples, mas é traiçoeiro
      Por exemplo, vi um problema do tipo x+y=1, xy=1, e no fim a solução usa apenas álgebra básica que conhecemos (fatoração, fórmula de Bhaskara etc.), mas até a explicação é bonita
      Dá a sensação de que, se você pensar por bastante tempo, talvez encontre a resposta, mas pela minha experiência isso não acontece nem um pouco
      Link: https://www.youtube.com/watch?v=csS4BjQuhCc
    • Fico curioso sobre como esses problemas da IMO se comparam com os problemas de nível hard do leetcode
    • Só agora percebi que os problemas da IMO existem em várias línguas
      Parece que são umas 50 línguas, e isso me faz pensar que, com tantas versões, deve ser muito mais difícil manter a segurança e evitar vazamentos
  • O fato de esses problemas serem “de nível de ensino médio” diz respeito apenas ao conhecimento prévio exigido; eles são extremamente difíceis
    Mesmo matemáticos profissionais que não vieram da IMO teriam dificuldade em ter esse desempenho
    Isso não significa que a IA seja superior aos humanos em matemática, porque matemáticos estão focados em expandir a fronteira da matemática
    Dizem que as respostas corretas não estavam nos dados de treinamento
    E afirmam que esse modelo não é especializado apenas em problemas da IMO

    • Pelo que lembro da época em que fazia ciência de dados, evitar vazamento do conjunto de validação é muito mais difícil do que parece
      Você continua ajustando o processo de treino e, quando o desempenho no conjunto de validação melhora, volta a escolher arquitetura e dados com base nisso
      Mesmo sem intenção, um pouco da informação do conjunto de validação vai se infiltrando no modelo
      Se você escolher outro conjunto de validação, acaba com um modelo completamente diferente
    • Tenho minhas dúvidas se isso realmente não é um modelo especializado em IMO; no fio do Twitter falam em “raciocínio geral”, mas se de fato não fizeram RL (aprendizado por reforço) em problemas de matemática olímpica, eu gostaria muito de ouvir uma declaração oficial da OpenAI sobre isso
    • Queria saber qual é a base para a afirmação de que “não é um modelo especializado em IMO”
    • Queria saber que evidência ou prova existe para “as respostas não estão nos dados de treinamento” e “não é um modelo especializado em IMO”
    • Por mais que eu olhe, parece quase certo que é um modelo especializado em IMO
      Até a forma como responde dá exatamente essa impressão
      Ex.: https://xcancel.com/alexwei_/status/1946477742855532918
      Captura de tela da resposta real: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      Parece algo no estilo AlphaProof, alternando entre linguagem natural e sistemas como Lean
      A OpenAI provavelmente não vai compartilhar esses detalhes de implementação
  • No fio: “o modelo resolveu P1~P5 e não conseguiu responder P6”
    O problema mais difícil (P6) era algo que quase nenhum humano conseguiu resolver; até a equipe da China fez só 21 de 42 pontos, e na maioria dos outros países ninguém resolveu

    • Na IMO, no primeiro dia você vê P1, P2, P3, e no segundo dia P4, P5, P6
      Normalmente a ordem de dificuldade pretendida é P1, P4, P2, P5, P3, P6, com P1 sendo o mais fácil e P6 o mais difícil
      Na prática, às vezes essa ordem muda
    • Acho que alguém da equipe canadense resolveu P6, mas no geral foram pouquíssimos
    • O fato de a máquina não conseguir resolver problemas que parecem difíceis para humanos da mesma forma (especialmente P6) parece uma pista de que pode ter havido intervenção humana
      Mesmo que tenha sido apenas acaso mecânico, ela poderia ter produzido respostas erradas também; então fico me perguntando se não selecionaram apenas as respostas corretas, ou seja, se não filtraram só os resultados bem-sucedidos
  • O Google também participou desta IMO e ganhou ouro
    Link: https://x.com/natolambert/status/1946569475396120653
    Como a OAI anunciou primeiro, imagino que o Google também vá fazer um anúncio oficial em breve

    • A fala do Noam Brown de que “até os pesquisadores internos da OpenAI ficaram surpresos” torna isso ainda mais impressionante se vários laboratórios tiverem obtido esse resultado ao mesmo tempo
      No Twitter, disseram que o Google usou Lean, enquanto a OpenAI usou só LLM, sem ferramentas
      De qualquer forma, o resultado em si é o mais importante, mas os limites das técnicas concretas e o processo de evolução também são referências interessantes
    • O AlphaProof do Google ganhou prata no ano passado e usava uma abordagem neural + simbólica
      O ouro da OpenAI se destaca por aparentemente ter sido possível com LLM puro
      Quando o Google fizer o anúncio oficial, talvez saibamos que abordagem usaram
      A vantagem da abordagem com LLM é que ela parece ter mais potencial de generalização para vários tipos de problema de raciocínio, e não só prova matemática
  • Noam Brown:
    Não é um modelo especializado em IMO, e sim um LLM de raciocínio com novas técnicas experimentais de propósito geral
    Ele pensa de forma muito mais eficiente do que o1 e o3, e ainda dá para forçar mais eficiência em tempo de teste no futuro
    O ritmo recente de progresso em IA foi rápido, e ele espera que isso continue
    Em especial, acha que estamos nos aproximando do ponto em que a IA vai começar a contribuir de verdade para descobertas científicas
    Até recentemente eu achava que o progresso estava desacelerando, mas várias dessas afirmações (de que não é um modelo especializado e de que há espaço para mais ganhos de eficiência) sugerem que o avanço real é bastante claro
    Link: https://x.com/polynoamial/status/1946478249187377206

    • Acho que existe uma diferença considerável entre “um modelo que resolve questões de prova” e “uma IA que contribui para descobertas científicas”
    • Parece um sonho, mas assim como houve ajuste fino para exames específicos, como a prova da OAB ou o bar exam, esses modelos muitas vezes já foram treinados em questões de edições anteriores dessas provas
    • Fico curioso se o processo de fine-tuning envolveu uso de ferramentas junto, como provadores automáticos
    • Sobre a parte de “pensar de forma mais eficiente do que o1 e o3”,
      “Se o oponente adotar uma estratégia fixa de resposta, ela nunca perde. Para ela ganhar (ou fazer o oponente perder), seria necessário Q_{even-1}>even, isto é, algum a_j> sqrt2, mas já temos a_j<=c< sqrt2. Portanto, ela nunca pode perder” etc.
      Dá para ver a postura de maximizar eficiência com o mínimo de palavras
      Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • Agora que chegamos ao “peak data”, em que os dados estão ficando escassos, fico curioso sobre qual é a trajetória clara de avanço para ganhos de eficiência
  • É um resultado realmente impressionante, mas quero saber como foi feito
    Pelo “escalonamento de computação em tempo de teste” que Wei mencionou, parece que gastaram uma quantidade absurda de dinheiro
    Se rodaram em paralelo milhares ou dezenas de milhares de vezes e só escolheram o melhor resultado, isso seria decepcionante
    Se é realmente um grande feito, deveriam explicar com transparência que ferramentas usaram e como usaram
    Imagino que várias técnicas para melhorar desempenho em problemas difíceis de verificar estejam aqui

    • Mesmo rodar 10.000 vezes em paralelo não tornaria isso tão menos interessante
      Na verdade, significaria que conseguem distinguir correção e rigor da resposta, o que não é tão diferente de como humanos às vezes resolvem esses problemas
    • Segundo o fio no Twitter, não foram dadas ferramentas separadas
    • Acho bem provável que a OpenAI tenha mesmo rodado milhares ou dezenas de milhares de vezes em paralelo e depois selecionado os resultados
      Foi assim também no benchmark ARC do o3 inicial
      Talvez até tenham usado múltiplos agentes colaborando, o que permitiria contornar o limite de contexto (limite de tokens)
      A esta altura, a IA já superou 99,99% dos humanos em quase qualquer problema de matemática; então vencer 99,999% também não seria algo tão surpreendente
    • Se a OpenAI rodou 10.000 vezes e um humano escolheu manualmente o resultado, isso muda muito o significado
      Se o próprio LLM verificou e adotou a resposta, isso se parece com o processo de um humano tentando várias vezes resolver um problema difícil
      A diferença é que a IA tem recursos computacionais para fazer isso em paralelo, enquanto humanos só conseguem tentar de forma sequencial
  • Essa competição (IMO) é tão de elite que parece haver muita gente até na comunidade de programadores que não sabe exatamente o que ela é
    Fazendo uma conta simples para os EUA: cerca de 20 pessoas selecionadas para o campamento de treinamento (com chance de ouro), num universo de 20 milhões de estudantes do ensino médio daquela geração; isso dá um talento de “uma em um milhão”

    • Não quero minimizar o quão difícil é a competição
      Também estudei em escola de elite, mas nunca tinha ouvido falar da IMO até entrar na universidade e conhecer participantes
      Na prática, o número de estudantes que conhecem a competição e participam dela é muito menor do que o total de alunos
      Independentemente da habilidade, parece plausível que muitos estudantes pudessem ter tido bons resultados se tivessem tido a oportunidade e a informação certas
  • Vi recentemente um relatório sobre a avaliação de LLMs na IMO 2025, e o o3 high não conseguiu nem nível de bronze
    Link: https://matharena.ai/imo/
    Também quero ver a opinião do Terry Tao, mas acho que esse tipo de avanço é justamente um uso positivo de IA
    Em vez de inovação desenfreada quando a economia nem está preparada, eu gostaria que isso contribuísse para acelerar o progresso científico