- Um LLM experimental de raciocínio desenvolvido pela OpenAI alcançou desempenho em nível de medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025
- Seguindo as regras oficiais da IMO, resolveu os problemas e escreveu demonstrações em linguagem natural, sendo avaliado por unanimidade por 3 corretores humanos e obtendo 35 de 42 pontos (5 de 6 problemas resolvidos)
- Os problemas da IMO exigem pensamento criativo de altíssimo nível e provas em múltiplas etapas, demonstrando que um LLM pode ultrapassar os limites das abordagens anteriores de RL e gerar demonstrações lógicas em nível humano
- O resultado é especialmente significativo por ter sido alcançado com aprendizado por reforço de uso geral e escalonamento de computação em tempo de teste, e não com foco em tarefas específicas
- O modelo é uma versão de pesquisa separada do GPT-5, que será lançado em breve, e a divulgação pública desse desempenho matemático de ponta está prevista apenas para daqui a alguns meses
Visão geral do desempenho do LLM da OpenAI na IMO 2025
- Alexander Wei (@alexwei_) da OpenAI anunciou que o mais recente modelo experimental de linguagem com raciocínio registrou pontuação no nível de medalha de ouro na IMO 2025
- A IMO é uma competição extremamente difícil da qual participam os jovens mais talentosos em matemática do mundo, famosa por problemas que exigem raciocínio lógico complexo e compreensão conceitual profunda
- O processo de avaliação foi conduzido da mesma forma que para participantes humanos: duas provas de 4,5 horas, uso da folha oficial de questões, sem ferramentas externas e com envio de demonstrações em linguagem natural
- Cada problema foi corrigido de forma independente por 3 ex-medalhistas da IMO, e a nota final foi definida por consenso unânime
Significado do resultado e evolução da dificuldade
- Os problemas da IMO exigem tempos de raciocínio muito mais longos, criatividade e argumentação complexa do que benchmarks anteriores (GSM8K, MATH, AIME)
- Este modelo obteve 35/42 pontos ao resolver completamente 5 problemas (P1~P5), sem submissão para o P6, atendendo ao critério real de medalha de ouro da IMO
- A capacidade de gerar demonstrações lógicas com várias páginas supera as limitações do aprendizado por reforço (RL) anterior
Abordagem de pesquisa e contexto do avanço em IA
- O alto desempenho foi alcançado não por um modelo voltado apenas para resolver problemas específicos, mas com base em RL de uso geral e escalonamento de computação
- Houve sucesso na geração de saídas criativas complexas mesmo sem a estrutura clara de recompensas normalmente oferecida pelo RL tradicional
- Trata-se de um modelo experimental, separado do GPT-5 que será lançado em breve, e não há previsão de disponibilizar ao público esse nível de capacidade matemática nos próximos meses
Perspectivas futuras e menções da comunidade
- A velocidade do avanço da capacidade matemática da IA está muito à frente do que se esperava (comparado à previsão de 30% no benchmark MATH em 2021, agora com medalha de ouro na IMO)
- Alexander também parabenizou todos os participantes da IMO 2025 e destacou que há muitos ex-participantes da IMO na equipe
- As soluções do modelo para os problemas da IMO 2025 também devem ser divulgadas, embora em um estilo experimental
1 comentários
Comentários do Hacker News
Noam Brown: ao trabalhar em um laboratório de ponta, normalmente você acaba vendo novas capacidades alguns meses antes, mas este resultado foi um avanço realmente novo, usando técnicas desenvolvidas muito recentemente; foi algo surpreendente até para os pesquisadores da OpenAI, e só hoje todo mundo pôde ver onde fica a fronteira do estado da arte
Além disso, esse resultado foi puxado por uma equipe pequena, e Alex Wei conseguiu transformar em resultado concreto uma ideia de pesquisa em que pouca gente acreditava; a longa trajetória de pesquisa e engenharia da OpenAI e da comunidade de IA também teve grande papel nisso
Link: https://x.com/polynoamial/status/1946478258968531288
Curiosamente, chama atenção o fato de as soluções da IMO usarem um vocabulário bastante restrito
Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Não há motivo para usar muitas palavras quando menos palavras funcionam melhor”
E vale notar que o próprio Alex Wei também é medalhista de ouro da IOI
Para quem menospreza isso por ser de “nível de ensino médio”, recomendo tentar resolver um problema da IMO; todos estão públicos, inclusive os deste ano
Link: https://www.imo-official.org/problems.aspx
Minha cabeça já está girando
Por exemplo, vi um problema do tipo x+y=1, xy=1, e no fim a solução usa apenas álgebra básica que conhecemos (fatoração, fórmula de Bhaskara etc.), mas até a explicação é bonita
Dá a sensação de que, se você pensar por bastante tempo, talvez encontre a resposta, mas pela minha experiência isso não acontece nem um pouco
Link: https://www.youtube.com/watch?v=csS4BjQuhCc
Parece que são umas 50 línguas, e isso me faz pensar que, com tantas versões, deve ser muito mais difícil manter a segurança e evitar vazamentos
O fato de esses problemas serem “de nível de ensino médio” diz respeito apenas ao conhecimento prévio exigido; eles são extremamente difíceis
Mesmo matemáticos profissionais que não vieram da IMO teriam dificuldade em ter esse desempenho
Isso não significa que a IA seja superior aos humanos em matemática, porque matemáticos estão focados em expandir a fronteira da matemática
Dizem que as respostas corretas não estavam nos dados de treinamento
E afirmam que esse modelo não é especializado apenas em problemas da IMO
Você continua ajustando o processo de treino e, quando o desempenho no conjunto de validação melhora, volta a escolher arquitetura e dados com base nisso
Mesmo sem intenção, um pouco da informação do conjunto de validação vai se infiltrando no modelo
Se você escolher outro conjunto de validação, acaba com um modelo completamente diferente
Até a forma como responde dá exatamente essa impressão
Ex.: https://xcancel.com/alexwei_/status/1946477742855532918
Captura de tela da resposta real: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
Parece algo no estilo AlphaProof, alternando entre linguagem natural e sistemas como Lean
A OpenAI provavelmente não vai compartilhar esses detalhes de implementação
No fio: “o modelo resolveu P1~P5 e não conseguiu responder P6”
O problema mais difícil (P6) era algo que quase nenhum humano conseguiu resolver; até a equipe da China fez só 21 de 42 pontos, e na maioria dos outros países ninguém resolveu
Normalmente a ordem de dificuldade pretendida é P1, P4, P2, P5, P3, P6, com P1 sendo o mais fácil e P6 o mais difícil
Na prática, às vezes essa ordem muda
Mesmo que tenha sido apenas acaso mecânico, ela poderia ter produzido respostas erradas também; então fico me perguntando se não selecionaram apenas as respostas corretas, ou seja, se não filtraram só os resultados bem-sucedidos
O Google também participou desta IMO e ganhou ouro
Link: https://x.com/natolambert/status/1946569475396120653
Como a OAI anunciou primeiro, imagino que o Google também vá fazer um anúncio oficial em breve
No Twitter, disseram que o Google usou Lean, enquanto a OpenAI usou só LLM, sem ferramentas
De qualquer forma, o resultado em si é o mais importante, mas os limites das técnicas concretas e o processo de evolução também são referências interessantes
O ouro da OpenAI se destaca por aparentemente ter sido possível com LLM puro
Quando o Google fizer o anúncio oficial, talvez saibamos que abordagem usaram
A vantagem da abordagem com LLM é que ela parece ter mais potencial de generalização para vários tipos de problema de raciocínio, e não só prova matemática
Noam Brown:
Não é um modelo especializado em IMO, e sim um LLM de raciocínio com novas técnicas experimentais de propósito geral
Ele pensa de forma muito mais eficiente do que o1 e o3, e ainda dá para forçar mais eficiência em tempo de teste no futuro
O ritmo recente de progresso em IA foi rápido, e ele espera que isso continue
Em especial, acha que estamos nos aproximando do ponto em que a IA vai começar a contribuir de verdade para descobertas científicas
Até recentemente eu achava que o progresso estava desacelerando, mas várias dessas afirmações (de que não é um modelo especializado e de que há espaço para mais ganhos de eficiência) sugerem que o avanço real é bastante claro
Link: https://x.com/polynoamial/status/1946478249187377206
“Se o oponente adotar uma estratégia fixa de resposta, ela nunca perde. Para ela ganhar (ou fazer o oponente perder), seria necessário Q_{even-1}>even, isto é, algum a_j> sqrt2, mas já temos a_j<=c< sqrt2. Portanto, ela nunca pode perder” etc.
Dá para ver a postura de maximizar eficiência com o mínimo de palavras
Link: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
É um resultado realmente impressionante, mas quero saber como foi feito
Pelo “escalonamento de computação em tempo de teste” que Wei mencionou, parece que gastaram uma quantidade absurda de dinheiro
Se rodaram em paralelo milhares ou dezenas de milhares de vezes e só escolheram o melhor resultado, isso seria decepcionante
Se é realmente um grande feito, deveriam explicar com transparência que ferramentas usaram e como usaram
Imagino que várias técnicas para melhorar desempenho em problemas difíceis de verificar estejam aqui
Na verdade, significaria que conseguem distinguir correção e rigor da resposta, o que não é tão diferente de como humanos às vezes resolvem esses problemas
Foi assim também no benchmark ARC do o3 inicial
Talvez até tenham usado múltiplos agentes colaborando, o que permitiria contornar o limite de contexto (limite de tokens)
A esta altura, a IA já superou 99,99% dos humanos em quase qualquer problema de matemática; então vencer 99,999% também não seria algo tão surpreendente
Se o próprio LLM verificou e adotou a resposta, isso se parece com o processo de um humano tentando várias vezes resolver um problema difícil
A diferença é que a IA tem recursos computacionais para fazer isso em paralelo, enquanto humanos só conseguem tentar de forma sequencial
Essa competição (IMO) é tão de elite que parece haver muita gente até na comunidade de programadores que não sabe exatamente o que ela é
Fazendo uma conta simples para os EUA: cerca de 20 pessoas selecionadas para o campamento de treinamento (com chance de ouro), num universo de 20 milhões de estudantes do ensino médio daquela geração; isso dá um talento de “uma em um milhão”
Também estudei em escola de elite, mas nunca tinha ouvido falar da IMO até entrar na universidade e conhecer participantes
Na prática, o número de estudantes que conhecem a competição e participam dela é muito menor do que o total de alunos
Independentemente da habilidade, parece plausível que muitos estudantes pudessem ter tido bons resultados se tivessem tido a oportunidade e a informação certas
Vi recentemente um relatório sobre a avaliação de LLMs na IMO 2025, e o o3 high não conseguiu nem nível de bronze
Link: https://matharena.ai/imo/
Também quero ver a opinião do Terry Tao, mas acho que esse tipo de avanço é justamente um uso positivo de IA
Em vez de inovação desenfreada quando a economia nem está preparada, eu gostaria que isso contribuísse para acelerar o progresso científico
Link: https://mathstodon.xyz/@tao/114881419368778558