- Um pesquisador da OpenAI anunciou que o GPT-5 teria resolvido um problema de Erdős e a publicação foi rapidamente retirada após críticas da comunidade e de pessoas do setor
- A alegação foi feita de forma que poderia ser interpretada como uma prova concreta de que a IA encontrara de forma independente um problema matemático não resolvido há décadas
- Na prática, o GPT-5 apenas demonstrou a redescoberta de pesquisas existentes, e não apresentou uma nova solução para um problema matemático realmente não resolvido
- O caso aumentou preocupações da indústria sobre a credibilidade da OpenAI e sobre o risco de anúncios de desempenho de IA inflados sem validação
- Na prática, ficou enfatizado que a principal força do GPT-5 é atuar como assistente na busca de artigos de pesquisa e organização da literatura científica
Visão geral do caso
- Recentemente, um pesquisador da OpenAI anunciou no X (antigo Twitter) que o GPT-5 teria "resolvido 10 problemas não resolvidos de Erdős" e feito avanços adicionais em mais 11
- A alegação foi entendida como se o GPT-5 tivesse derivado de forma autônoma uma prova matemática para problemas difíceis de teoria dos números
- Vários pesquisadores da OpenAI postaram conteúdos semelhantes, sugerindo que essa IA poderia realizar descobertas científicas inovadoras
Verificação pela comunidade e controvérsia
- O matemático Thomas Bloom, que administra o site Erdosproblems.com, respondeu de imediato, explicando que os problemas marcados como "open" no site não são, na prática, problemas não resolvidos
- Esses casos eram simplesmente situações em que Bloom não conhecia a resposta ou ainda não havia checado a pesquisa existente
- O GPT-5 apenas encontrou resultados de pesquisa já existentes, e não descobriu uma nova solução matemática
- Ao se tomar conhecimento disso, os pesquisadores da OpenAI removeram ou alteraram as postagens
- Na comunidade e entre personalidades da área, como o CEO da DeepMind Demis Hassabis, o episódio foi classificado como "uma situação constrangedora", enquanto Yann LeCun, da Meta AI, também observou que a OpenAI parece ter sido iludida por sua própria autopromoção
- A equipe de pesquisa reconheceu o erro e explicou novamente o papel real do GPT-5
Questões de confiança e críticas na indústria
- O episódio ampliou a avaliação de que a OpenAI teria falhas de credibilidade e em seus processos de verificação de fatos
- Em especial, com expectativas infladas sobre IA e com o entusiasmo especulativo de investimentos relacionados, cresceu a preocupação com anúncios de desempenho não verificado
- Surgiram dúvidas sobre por que pesquisadores líderes da indústria divulgaram alegações dramáticas sem checagem prévia, além de questões sobre a saúde interna da organização
Resultados reais e o papel da IA em matemática
- Em termos práticos, o GPT-5 comprovou utilidade como assistente para localizar artigos relevantes e materiais de pesquisa em problemas matemáticos difíceis e com terminologia variada
- O matemático Terence Tao espera que a IA seja mais útil para reduzir substancialmente o tempo gasto em grandes revisões de literatura e buscas repetitivas do que para ser uma
‘solução para problemas não resolvidos recentes’
- Há alguns casos de progressos independentes, mas no momento o destaque é no suporte automatizado à busca e organização de artigos
- No futuro, a IA generativa pode contribuir para ganhos de velocidade e automação no campo da matemática
- mas a validação, classificação e integração de resultados por especialistas é essencial
Conclusão
- O episódio é um caso emblemático que revela os limites reais e o potencial industrial da IA generativa, além dos riscos de se exagerar os resultados de pesquisas em IA
- Em resumo, destacou-se que o GPT-5 é um potencial instrumento de apoio na organização de materiais de pesquisa, e não uma ruptura inovadora para problemas matemáticos não resolvidos
1 comentários
Comentário no Hacker News
Para ser justo com a equipe da OpenAI e olhar o contexto, não acho que a situação tenha sido tão maliciosa assim
O tweet apagado dizia que "o GPT-5 resolveu 10 problemas de Erdös (antes não resolvidos), e também houve progresso em outros 11, problemas que estavam sem solução há décadas"
Se esse tweet tivesse sido publicado isoladamente, eu acharia enganoso, mas na prática era um tweet com citação
O primeiro tweet original citado (https://x.com/MarkSellke/status/1979226538059931886) dizia algo como "estamos levando isso ainda mais longe"
E no segundo original citado por esse tweet (https://x.com/SebastienBubeck/status/1977181716457701775), a explicação era que o GPT-5 é excelente em busca de literatura e "na verdade encontrou um problema resolvido 20 anos atrás, resolvendo assim o problema de Erdos #339, que ainda estava classificado como aberto"
Lendo a thread nessa ordem
SebastienBubeck: "o GPT-5 é muito bom em busca de literatura e, na prática, encontrou uma solução já existente para um problema que ainda se pensava estar em aberto"
MarkSellke: "agora fez mais 10"
kevinweil: "vejam esse resultado incrível que conseguimos!"
No fim, é um problema do formato de tweet com citação: como o kevinweil foi citando várias camadas, ele acabou perdendo o contexto do problema inicial (que na verdade foi encontrar uma solução que já existia), e para quem lê a estrutura praticamente força a interpretação errada
Isso me parece um erro bem compreensível, e acho a controvérsia um tanto exagerada
Sobre o ponto de não ter considerado suficientemente o contexto do tweet com citação que o Weil publicou, o próprio Weil de fato admitiu que interpretou o post do Sellke de forma errada (isso pode ser visto em https://x.com/kevinweil/status/1979270343941591525)
O Sellke disse "classificado como problema em aberto", enquanto o Weil falou em "problemas antes não resolvidos"
A primeira pessoa disse "resolveu" um problema ao descobrir que ele já tinha sido resolvido 20 anos atrás, e a segunda disse que "resolveu 10 problemas de Erdös antes não resolvidos"
Tenho a impressão de que a expressão "antes não resolvidos" não bate com o contexto real
Fiquei me perguntando se não entendi algo errado
Isso parece parecido com quando o DeepMind publicou, alguns meses atrás, um paper dizendo que “faz multiplicação de matrizes melhor que o SOTA”
Na época, disseram que o Gemini tinha encontrado uma nova solução de otimização, mas logo depois matemáticos apontaram que o método já aparecia na literatura de 30 ou 40 anos atrás, e era bem provável que esse conteúdo estivesse nos dados de treino do Gemini
Sobre a afirmação de que "o GPT-5 é muito bom em busca de literatura e 'resolveu' problemas que já tinham solução"
Acho que isso é viés de sobrevivente
Na prática, o GPT-5 muitas vezes falha até em buscas relativamente simples
É preciso saber bastante sobre o resultado ou fazer verificação manual
Parece pouco diferente de jogar um dado 1000 vezes e fazer um post comemorando cada vez que sai duplo seis
Isso não significa que eu seja a melhor pessoa do mundo em jogar dados
Menciona a refutação imediata feita por Thomas Bloom, matemático que mantém o erdosproblems.com
Ele enfatizou que não queria dizer "não resolvido (unsolved)", e sim "eu não sei a resposta (open)"
Acho estranho um matemático definir "open" dessa forma
Eu não chamaria um exercício de livro didático cuja resposta eu não sei de "questão em aberto"
Rebate a ideia de que "o GPT-5 é útil como ferramenta auxiliar para revisão de literatura"
Na prática, acho que ele só produz resultados muito plausíveis, mas falsos
Quem consegue ficar satisfeito com isso deve ter uma vida muito mais fácil que a minha
Eu acabo passando horas fuçando biblioteca atrás de material, como artigos de matemática aplicada à engenharia, e deixo o chatbot como último recurso
Mas no fim o resultado vem esquisito, aí passo um tempão reverificando tudo e só sobra a frustração de "isso não podia mesmo ser verdade"
Também tive a impressão de que não sou o único a passar por isso
Quando faço buscas aprofundadas de revisão de literatura com frequência, o GPT inventa fontes sem base nenhuma em cerca de 50% dos casos
Em revisões de nível mais alto, a taxa de alucinação fica em torno de 5%
Das fontes reais, metade são papers que eu já conhecia e a outra metade são desconhecidos para mim
A parte realmente boa é que às vezes ele encontra artigos difíceis de descobrir por meios normais, inclusive que eu não conseguiria achar pelo Google Scholar
Em especial, ele traz pesquisas relacionadas vindas de outras áreas ou papers de workshop pouco citados, uma variedade enorme de fontes
Mesmo que 75% do resultado total seja inútil ou alucinado, os 25% restantes têm tanto valor que ainda assim é muito útil na prática
Dizer que "não é útil de jeito nenhum" parece exagero
O GPT consegue vasculhar 500 mil palavras em poucos minutos e devolver resumo, resposta detalhada e evidências para cada afirmação
Claro, não dá para confiar cegamente no resumo, e qualquer informação importante precisa ser validada clicando na fonte
Ainda assim, continua sendo uma ferramenta de busca excelente e um grande impulsionador de produtividade
Não lembro o nome, mas existe esse princípio
Quando as pessoas leem uma notícia de jornal sobre um tema que conhecem, enxergam todos os erros e pensam "como isso foi publicado?"
Mas, em temas que não conhecem, acabam acreditando sem senso crítico
Tenho a impressão de que existe um tipo parecido de fé cega em relação ao ChatGPT
Na verdade, talvez fosse melhor não forçar tanto GPT-5 e outros chatbots para busca/revisão de literatura, e sim usar um mecanismo de busca semântica realmente poderoso
Sempre que você pede resumo ou resposta a um chatbot, a alucinação vem junto
Já uma busca de documentos com embeddings de LLM não teria risco algum de o próprio resultado ser alucinado, e talvez fosse uma forma melhor de encontrar papers que Google/Bing etc. não conseguem achar
Pode ser que esse tipo de serviço já exista e eu só não conheça, então vale fazer essa ressalva
Se alguém tiver interesse em ferramentas de revisão de literatura, apresento uma plataforma pública de organização bibliográfica que fiz para amigos da pós-graduação
Ela usa um modelo hierárquico misto para organizar buscas em larga escala e redes de citação
Exemplo de uso: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
Passa uma impressão especialmente ruim o fato de esse problema da OpenAI ter aparecido na mesma semana em que o DeepMind mostrou um avanço real no uso de IA para tratamento de câncer
Isso me fez lembrar de uma frase de um ex-chefe: "não seja a pessoa que faz uma nova política se tornar necessária"
Parece que a OpenAI vai precisar mudar suas políticas de comunicação daqui para frente
Imagino que funcionários da OpenAI conheçam bem as capacidades reais dos próprios modelos, mas mesmo que não conheçam, acho que o certo é sempre ter cautela com qualquer alegação que apareça na internet
Acho que essa cultura acabou produzindo o ambiente atual de hype exagerado em torno da IA
O que esse episódio revelou foi a triste verdade de que a OpenAI não está investindo seriamente em problemas matemáticos não resolvidos
Acho que isso é um salto lógico grande demais
Uma organização enorme como a OpenAI certamente tem equipes de pesquisa em várias frentes experimentando direções diferentes
No momento em que a OpenAI mudou o foco do negócio para publicidade e conteúdo adulto, pensei que tinham realmente "jumped the shark"
O mercado ainda não refletiu esse fato
Eu não avaliaria a organização inteira tão facilmente por causa de um anúncio equivocado feito por um único funcionário
Não seria estranho que funcionários da OpenAI sejam orientados a anunciar as coisas desse jeito, em termos de marketing
Não foi a primeira vez: já houve antes outro caso em que se alegou que o GPT-5 tinha “resolvido” alguma coisa (veja https://x.com/SebastienBubeck/status/1970875019803910478)
Aos poucos, estão aumentando os casos em que o GPT-5 aparentemente consegue resolver problemas matemáticos menores ainda em aberto, do tipo que normalmente um doutorando resolveria em um ou dois dias
O impacto disso ainda não foi totalmente absorvido
Sinto falta do conselho "não confie demais naquilo que você mesmo constrói"
[Beber xixi duas vezes]
A expressão do Yann LeCun, "Hoisted by their own GPTards", chamou atenção
O Yann de fato é inteligente e conhece o campo na raiz, mas sinto que ultimamente ele também segue uma linha mais negativa e às vezes erra rápido em posicionamentos públicos
Antes, numa apresentação com pesquisadores mais jovens, ele fez duas afirmações fortes
plan)Mas, em um ano, a IA já passou a usar ferramentas de verdade, ganhar medalha na IMO e fazer planejamento baseado em agentes de forma concreta
Outra alegação dele era que, conforme a conversa com LLM se alonga, os erros se acumulam e acabam levando a resultados absurdos; mas recentemente, com long context e combinações com RL, também já houve muitos casos que na prática superam isso
Por mais genial que alguém seja, acho que a opinião individual de uma pessoa ainda precisa ser filtrada com certo cuidado
Talvez eu tenha perdido algum contexto, mas me surpreende o Yann usar uma palavra derivada de 'retard'
Normalmente eu esperaria esse tipo de linguagem de alguém como o Elon Musk
Fiquei curioso sobre o contexto
Depois do escândalo de financiamento circular envolvendo centenas de bilhões de dólares, já não me surpreendo mais com nada quando leio sobre a indústria de IA ou sobre hype artificial