Uma experiência recente usando o ChatGPT 5.5 Pro
(gowers.wordpress.com)- Tim Gowers obteve com o ChatGPT 5.5 Pro um resultado de pesquisa em nível de doutorado em combinatória em cerca de 1 hora, e considera que sua própria contribuição matemática foi praticamente nula
- O ChatGPT 5.5 Pro apresentou em 17 minutos e 5 segundos uma construção de melhor limite superior quadrático possível para o diâmetro de conjuntos com um tamanho de conjunto soma dado, no problema de teoria aditiva dos números de Mel Nathanson
- Em seguida, resolveu da mesma forma o problema de conjunto soma restrito e chegou até a um argumento que melhora o limite exponencial existente de Isaac Rajagopal para uma dependência polinomial, o que pareceu a Rajagopal quase certamente correto
- A ideia central foi substituir, na construção de Rajagopal, componentes em progressão geométrica por uma construção baseada em conjuntos h-dissociados, reproduzindo o padrão necessário de tamanhos de conjuntos soma dentro de um intervalo de tamanho polinomial
- Os resultados gerados pela IA parecem ter nível de publicação, mas pode ser necessário um repositório separado em que matemáticos humanos certifiquem a correção, em vez de publicação em periódico ou registro no arXiv, e o padrão de formação de pesquisadores iniciantes também pode migrar para provar coisas que o LLM sozinho não consegue fazer, colaborando com LLMs
Resolução de problemas de combinatória transformada por LLMs
- Grandes modelos de linguagem já parecem estar em um estágio em que conseguem resolver problemas em nível de pesquisa, e também se diz que já resolveram vários problemas publicados no site de problemas de Erdős de Thomas Bloom
- Nos primeiros resultados com LLMs, muitas vezes eles encontravam respostas já existentes na literatura ou tiravam conclusões que decorriam facilmente de resultados conhecidos, mas agora cresce a possibilidade de que o LLM encontre argumentos simples que passaram despercebidos pelos humanos
- Na matemática humana também há uma parte considerável do trabalho que consiste em combinar conhecimento existente e técnicas de prova, portanto o consolo de que LLMs “apenas combinam conhecimento existente” é limitado
- Em combinatória, artigos que introduzem novos parâmetros combinatórios naturalmente geram vários problemas e antes eram uma boa fonte de problemas abertos para pesquisadores iniciantes, mas agora o novo critério passa a ser se eles são difíceis o bastante para que um LLM não consiga resolvê-los
O problema de Nathanson e o primeiro resultado
- Gowers fez o ChatGPT 5.5 Pro tentar problemas do artigo de Mel Nathanson, Diversity, Equity and Inclusion for Problems in Additive Number Theory
- Nathanson é apresentado como alguém que se interessou cedo por problemas e teoremas que depois se tornaram populares, e que por isso escreveu livros didáticos oportunos e influentes
- O objeto central são os conjuntos soma (sumsets) de conjuntos de inteiros, conjuntos soma obtidos por somas repetidas e os tamanhos de conjuntos soma possíveis para uma quantidade dada de elementos
- Quando o número de elementos é dado, os tamanhos de conjuntos soma possíveis nem sempre cobrem todos os valores entre o mínimo e o máximo, e ainda não há uma caracterização completa
- Nathanson apresentou um limite superior para o diâmetro (diameter) necessário ao construir um conjunto com uma quantidade dada de elementos e um tamanho de conjunto soma dado, e perguntou se esse limite poderia ser melhorado
- Depois de pensar por 17 minutos e 5 segundos, o ChatGPT 5.5 Pro apresentou uma construção que dá um limite superior quadrático que não pode deixar de ser o melhor possível
- Quando Gowers pediu que ele reescrevesse isso como um arquivo LaTeX no estilo usual de um preprint matemático, o ChatGPT entregou esse formato 2 minutos e 23 segundos depois, e Gowers passou então a gastar tempo verificando se o argumento estava correto
Conjuntos de Sidon e extensão para conjuntos soma restritos
- Tanto o argumento de Nathanson quanto o do ChatGPT se baseiam na ideia de usar juntos conjuntos de Sidon e progressões aritméticas para construir conjuntos de tamanho dado e conjuntos soma de tamanho dado
- Aqui, conjuntos de Sidon são usados no sentido simplificado de conjuntos cujo tamanho do conjunto soma é máximo
- Para ajustes finos, pode-se acrescentar um ponto extra perto da progressão aritmética, e ao ajustar vários parâmetros obtêm-se conjuntos com os tamanhos desejados
- Nathanson apresentou um argumento indutivo no Teorema 5 deste artigo, mas, ao expandi-lo, a estrutura na prática parece usar um conjunto de Sidon formado por potências de 2
- A melhora do ChatGPT veio do uso de um conjunto de Sidon mais eficiente, e é bem conhecido que se podem encontrar conjuntos de Sidon com diâmetro quadrático
- Gowers então testou também um problema próximo, que considera o tamanho do conjunto soma restrito (restricted sumset) em vez do tamanho do conjunto soma, e o ChatGPT obteve um resultado do mesmo tipo sem grande dificuldade
- O documento que organiza os dois resultados em uma única nota, sem duplicação, está disponível aqui
O problema de grau geral e a melhora do artigo de Rajagopal
- Gowers também perguntou o que o ChatGPT seria capaz de fazer no caso mais geral
- Originalmente, ele era muito menos otimista, porque a prova anterior dependia essencialmente do resultado de Erdős e Szemerédi, isto é, do fato de se conhecerem exatamente os tamanhos que precisavam ser produzidos
- No artigo de Nathanson aparece um trabalho do estudante do MIT Isaac Rajagopal, no qual Rajagopal provou dependência exponencial para cada grau fixo
- Para Rajagopal, a dificuldade real não estava em “não conhecer o conjunto de tamanhos possíveis”
- Seu argumento fornece uma caracterização completa para casos suficientemente grandes
- Para mostrar dependência polinomial em um grau fixo, basta supor apenas os casos suficientemente grandes
- A dificuldade real está no fato de que a construção de um conjunto com o tamanho de conjunto soma dado é muito mais complexa e, à medida que o grau aumenta, o grau do polinômio também aumenta, exigindo mais parâmetros
- A tarefa do ChatGPT não era resolver o problema do zero, mas apertar o argumento de Rajagopal
- O processo foi o seguinte
- Após 16 minutos e 41 segundos, ele apresentou um argumento que melhorava o limite existente de uma função exponencial para uma forma exponencial menor, para qualquer constante positiva arbitrária
- Levaram mais 47 minutos e 39 segundos para redigir isso em formato de preprint
- Gowers enviou isso a Nathanson, que repassou a Rajagopal, e a Rajagopal pareceu correto
- Tanto o ChatGPT quanto Rajagopal fizeram algumas conjecturas sobre o que seria necessário para avançar até um limite polinomial, e Gowers fez o ChatGPT tentar isso
- Após 13 minutos e 33 segundos, o ChatGPT respondeu que estava otimista quanto à possibilidade de existir tal argumento, mas que havia algumas proposições técnicas a verificar
- Quando lhe pediram a verificação, 9 minutos e 12 segundos depois ele havia concluído a checagem, e então lhe pediram novamente a redação em formato de preprint
- Após 31 minutos e 40 segundos, o preprint ficou pronto, e o documento está disponível aqui
- Rajagopal o considerou quase certamente correto, e isso foi entendido no sentido não apenas linha a linha, mas também no nível das ideias
Onde colocar resultados matemáticos produzidos por IA
- Se o resultado tivesse sido produzido por um humano, ele seria publicável, portanto parece inadequado chamá-lo de AI slop
- Por outro lado, publicá-lo em periódico não parece ter muito sentido
- O resultado pode ser divulgado gratuitamente
- Ninguém precisa de “crédito”
- Ainda assim, Rajagopal merece muito crédito por ter criado a estrutura sobre a qual o ChatGPT pôde construir
- Entende-se que o arXiv tem uma política de não aceitar conteúdo escrito por IA, e isso parece razoável
- Pode ser necessário um repositório separado para resultados produzidos por IA
- Pode ser desejável um procedimento editorial que inclua apenas resultados cuja correção tenha sido certificada por matemáticos humanos
- Melhor ainda se forem resultados formalizados com assistentes de prova
- Outro critério pode ser se o resultado responde a uma pergunta levantada em um artigo escrito por humanos
- Seria problemático se esse procedimento editorial criasse uma carga de trabalho enorme, e há riscos claros em direcionar esse trabalho novamente para a IA
- Por enquanto, esses resultados podem ser acessados por links públicos e, como a capacidade de busca bibliográfica dos LLMs melhorou, talvez eles possam ser encontrados por alguém que tente descobrir se o problema de Nathanson já foi resolvido
Avaliação de Isaac Rajagopal e contexto técnico
-
Contribuição central do ChatGPT
- O ChatGPT melhorou um certo limite de uma dependência exponencial para uma dependência polinomial com apenas alguns prompts
- A primeira melhoria foi uma modificação relativamente rotineira do trabalho de Rajagopal, mas a melhoria polinomial foi bastante impressionante
- A ideia proposta pelo ChatGPT era original e engenhosa, do tipo da qual Rajagopal se orgulharia se tivesse chegado a ela depois de pensar por 1 ou 2 semanas
- O ChatGPT encontrou e demonstrou a ideia em menos de uma hora, usando um método parecido com o da própria demonstração de Rajagopal
-
Contexto do problema
- Esse problema de limite está intimamente ligado a um problema com que Rajagopal trabalhou no programa Duluth REU (Research Experience for Undergrads)
- O objeto central é o conjunto dos tamanhos possíveis de somatórios múltiplos e o menor intervalo necessário para realizá-los todos com conjuntos de inteiros com um certo número de elementos
- Rajagopal caracterizou explicitamente no verão passado o conjunto de valores possíveis no caso suficientemente grande
- Ele construiu conjuntos que realizam todos os tamanhos que não conseguiu excluir como impossíveis, e assim o limite correspondente pode ser obtido otimizando essa construção
-
Substituição da construção de tamanho exponencial
- A construção original de Rajagopal combinava vários conjuntos pequenos de componentes, fáceis de analisar
- Alguns componentes tinham a forma de progressões geométricas em parâmetros de vários valores, e seus elementos cresciam exponencialmente em relação ao parâmetro
- Por meio de Tim, Rajagopal perguntou ao ChatGPT se existia um conjunto com tamanhos de somatórios parecidos com os dessa progressão geométrica, mas com elementos limitados polinomialmente em relação ao parâmetro
- O ChatGPT construiu conjuntos que se comportam como se “empurrassem metade de uma progressão geométrica para dentro de um intervalo polinomial”
- Isso parece ser uma construção contraintuitiva
Conjuntos Bₕ, conjuntos dissociated e a ideia de construção do ChatGPT
-
O papel dos conjuntos Bₕ
- Para uma ordem dada, um conjunto sem relações de soma, exceto soluções triviais em que uma soma é apenas uma permutação da outra, é chamado de conjunto Bₕ
- Em um conjunto Bₕ de tamanho fixo, a forma de escolher elementos com repetição corresponde exatamente aos elementos do somatório múltiplo
- Pelo argumento de “stars and bars”, esse é o maior tamanho possível de somatório múltiplo entre conjuntos do mesmo tamanho
- Conjuntos de Sidon são, nessa perspectiva, conjuntos B₂
-
A propriedade reproduzida pela progressão geométrica
- Certos conjuntos em progressão geométrica são conjuntos Bₕ, mas não conjuntos B de ordem mais alta
- As relações que atrapalham aparecem como relações de soma de uma forma fixa
- Em um conjunto, o tamanho do somatório é uma função linear do parâmetro, e em outro é uma função quadrática
- O ChatGPT encontrou novos conjuntos que satisfazem essas quatro propriedades, mas cujos elementos têm todos tamanho polinomial no parâmetro
-
Uso de conjuntos h-dissociated
- A construção do ChatGPT usa conjuntos h-dissociated
- Um conjunto h-dissociated é um conjunto em que, em relações de soma até uma ordem limitada, só são permitidas soluções triviais
- É possível construir conjuntos h-dissociated com tamanho aproximadamente igual ao parâmetro e diâmetro polinomial
- Esse tipo de construção remonta às construções de Singer (1938) e Bose–Chowla (1963), que usam corpos finitos, explicadas no Appendix 1
-
A intuição de conter apenas metade do número de relações
- Os dois conjuntos criados pelo ChatGPT contêm, em comparação com seus correspondentes em progressão geométrica, cerca de metade de certas relações de soma
- Ao mesmo tempo, graças à propriedade h-dissociated, quase não há outras relações de baixa ordem
- Como resultado, eles reproduzem o padrão necessário de tamanhos de somatórios permanecendo dentro de um intervalo polinomial
- Para Rajagopal, a ideia do ChatGPT de controlar relações até certa ordem com conjuntos h-dissociated foi extremamente astuta e pareceu totalmente original
Correspondência entre a demonstração do ChatGPT e a de Rajagopal
- A demonstração do ChatGPT é muito parecida com a forma obtida ao substituir, na demonstração original de Rajagopal, os componentes em progressão geométrica pelos novos componentes do ChatGPT
- A construção final combina os novos conjuntos para vários valores de ordem, e ainda os combina com outro conjunto formado por um somatório de uma progressão aritmética com um ponto
- Intuitivamente, os novos conjuntos parecem produzir somatórios grandes, enquanto a progressão aritmética produz somatórios pequenos, então a combinação dos dois parece capaz de gerar todos os somatórios de tamanho intermediário
- A demonstração real é bastante complexa e ocupa a Section 4 do artigo de Rajagopal e todo o preprint do ChatGPT
- Para comparação, é fácil ver que o limite inferior positivo correspondente é pelo menos da ordem de uma certa potência da ordem, mas o valor real é desconhecido
- Rajagopal disse ter ficado surpreso com o fato de o problema dado por Tim ao ChatGPT 5.5 Pro ter levado, por acaso, ao seu próprio artigo no arXiv
Implicações para a pesquisa matemática e a formação no doutorado
- O resultado encontrado pelo ChatGPT em duas horas foi avaliado como algo no nível de um capítulo perfeitamente razoável de uma tese de doutorado em combinatória
- Não é um resultado surpreendente, já que depende fortemente da ideia de Isaac, mas foi uma extensão não trivial dessa ideia
- Para um estudante de doutorado encontrar a mesma extensão, provavelmente precisaria de bastante tempo para assimilar o artigo de Rajagopal, identificar os pontos que talvez não sejam ótimos e se familiarizar com as várias técnicas algébricas utilizadas
- O modelo de formação em pesquisa que consiste em dar a um aluno iniciante de doutorado um problema aberto relativamente “suave” pode se tornar mais difícil
- Se um LLM consegue resolver “problemas suaves”, então o limite inferior para contribuir em matemática deixa de ser “um resultado que ninguém ainda provou e que alguém considera interessante” e passa a ser algo mais próximo de “um resultado que o LLM não consegue provar”
- Como até iniciantes podem usar LLMs, a tarefa real talvez seja provar, em colaboração com o LLM, aquilo que o LLM sozinho não consegue fazer
- Gowers colaborou recentemente várias vezes com LLMs e considera que, embora ainda não tenham surgido ideias revolucionárias, elas já produziram contribuições úteis
Diferenças entre áreas e mudanças futuras
- Não está claro até que ponto essa mudança se generaliza para outras áreas da matemática
- A combinatória tem uma tendência fortemente orientada a problemas
- Parte da pergunta e raciocina de trás para frente, ou, mesmo quando raciocina para frente, mantém a pergunta fortemente em vista
- Em outras áreas, pode ser mais importante o raciocínio para frente, que parte do universo de ideias e observa aonde ele leva
- Nessas áreas, é preciso saber distinguir observações interessantes de observações sem interesse, e não está claro o quão bem os LLMs conseguem fazer isso
- O ritmo de avanço é tão rápido que avaliações atuais sobre LLMs provavelmente ficarão obsoletas em poucos meses
- A forma de fazer pesquisa em matemática, especialmente de introduzir novos pesquisadores à área, provavelmente será profundamente perturbada
- Quem começar o doutorado no próximo ano letivo, no melhor dos casos terminará em 2029, e até lá o significado de fazer pesquisa em matemática pode ter mudado a ponto de ficar irreconhecível em relação ao de hoje
Mudança no motivo para fazer matemática
- O autor diz que recebe com frequência e-mails perguntando se ainda faz sentido seguir a pesquisa em matemática como carreira
- Continuar lidando com problemas matemáticos ainda tem grande valor, mas a era em que se podia ter a alegria de ver o próprio nome ligado para sempre a certo teorema ou definição pode estar chegando ao fim
- Se o objetivo de fazer matemática é uma espécie de imortalidade, é preciso entender que isso talvez não seja mais possível por muito tempo
- Como experimento mental, se um matemático mantivesse uma longa conversa com um LLM e desempenhasse um papel útil de orientação, mas todo o trabalho técnico e a ideia central para resolver um grande problema fossem realizados pelo LLM, é duvidoso que isso fosse considerado uma grande realização desse matemático
- Resolver um problema cujo resultado já é conhecido ainda pode ser satisfatório, mas isso não basta como motivo para dedicar vários anos da vida
- Um motivo melhor é que, ao resolver problemas difíceis, a pessoa obtém insight sobre o próprio processo de resolução de problemas em sua área de especialidade
- Quem já resolveu diretamente problemas difíceis provavelmente também será melhor em resolvê-los com ajuda de IA
- É parecido com o fato de um bom programador fazer vibe coding melhor do que alguém que não é
- É parecido com o fato de alguém que entende bem aritmética básica usar melhor uma calculadora e, especialmente, perceber melhor quando a resposta parece estranha
- A matemática é uma habilidade altamente transferível, e isso também vale para a matemática em nível de pesquisa
- A pesquisa em matemática talvez não traga as mesmas recompensas que trouxe para gerações anteriores, mas ainda pode preparar muito bem para o mundo que está por vir
Conteúdo técnico do apêndice
-
Apêndice 1: construção de um conjunto h-dissociated
- O objetivo é construir um conjunto h-dissociated cujo diâmetro seja aproximadamente de ordem polinomial
- Essa construção é uma modificação muito pequena da construção de Bose–Chowla (1963), e Rajagopal afirma ter aprendido isso neste artigo
- O Lema 3.1 do preprint do ChatGPT usa uma construção diferente e menos eficiente que utiliza a moment curve
- A construção usa primos, corpos finitos, um gerador de uma extensão de corpo finito e uma forma de associar cada elemento a uma expressão de potência específica
- Relações aditivas até um grau limitado podem ser reinterpretadas como relações de potências do gerador
- Devido ao grau da extensão e às propriedades do gerador, elas não satisfazem polinômios não nulos de baixo grau, então os polinômios dos dois lados devem ser idênticos
- Portanto, a relação aditiva em questão só pode ser trivial, e o conjunto se torna h-dissociated
- Se necessário, é possível remover alguns elementos para reduzir ao tamanho desejado
-
Apêndice 2: estrutura detalhada da construção do ChatGPT
- Escolhem-se constantes fixas e usam-se dois conjuntos criados pelo ChatGPT
- A construção do conjunto que atinge o tamanho desejado combina quatro tipos de componentes
- Um tipo que escolhe dois parâmetros
- Dois tipos que escolhem dois parâmetros para cada valor de grau
- Um conjunto que ajusta o número total de elementos para que fique correto
- Uma das razões para essa construção ser complexa é que ela precisa gerar conjuntos distintos em quantidade suficiente
- Para isso, variam-se conjuntamente parâmetros de uma região e parâmetros de outra região
- Se um dos parâmetros for removido e os demais forem mantidos, deixa de ser possível gerar conjuntos em quantidade suficiente para o necessário
- A construção de Nathanson para grau 2 tem uma estrutura mais simples, combinando um conjunto de Sidon, uma progressão aritmética e um valor adicional, e criando os conjuntos necessários ao variar o tamanho da progressão aritmética e o valor adicional dentro de um certo intervalo
- Com a construção do Apêndice 1, é possível obter, para cada grau, um conjunto h-dissociated com diâmetro polinomial
- Ao combinar vários componentes, usa-se uma estrutura em forma de grade com vetores de base
- Essa construção garante uma identidade de multiplicação de funções geradoras, de forma semelhante ao Lema 4.9 de Rajagopal
- De acordo com o Lema 2.3 padrão do preprint do ChatGPT, essa construção pode ser transferida para um subconjunto de um intervalo de inteiros por meio de um isomorfismo de Freiman de certa ordem
- A construção completa funciona para casos suficientemente grandes
-
Apêndice 3: correspondência entre o artigo de Rajagopal e o preprint do ChatGPT
- A Seção 4.2 do artigo de Rajagopal usa uma construção mais simples para criar conjuntos que atingem certos valores específicos
- Esses conjuntos são subconjuntos de um intervalo cujos elementos têm tamanho polinomial, e esse fato é observado na Seção 5 do preprint do ChatGPT
- A Seção 4.3 do artigo de Rajagopal realiza a construção principal que combina vários componentes e corresponde às Seções 2, 3, 4 e 6 do preprint do ChatGPT
- A Seção 4.3.1 do artigo de Rajagopal oferece uma visão geral dessa parte, que tem muitos elementos variáveis
- A Seção 4.3.2 do artigo de Rajagopal explica como os componentes são combinados, e Rajagopal chama isso de disjoint union
- Funções geradoras são introduzidas como ferramenta de organização para acompanhar o tamanho da união dos conjuntos, o que corresponde à Seção 2 e à Seção 4 do preprint do ChatGPT
- A Seção 4.3.3 do artigo de Rajagopal calcula as funções geradoras de cada conjunto componente e inclui o Lema 4.15 e o Lema 4.17
- Isso corresponde à Seção 3 e à Seção 6.1 do preprint do ChatGPT, e no preprint do ChatGPT uma função geradora é calculada no Lema 3.3 e a outra no Lema 3.4
- Depois de calcular as funções geradoras, o restante da prova é quase idêntico no artigo de Rajagopal e no preprint do ChatGPT
- A Seção 4.3.4 do artigo de Rajagopal mostra que, ao variar os conjuntos construídos, os valores do tamanho da união assumem todos os valores possíveis
- O ponto central é que o conjunto de valores possíveis forma um intervalo único e inclui todos os números menores que, e iguais a, um certo valor de referência
1 comentários
Comentários do Hacker News
Bate com a minha experiência de ter usado o 5.5 Pro por pouco tempo. Foi a primeira vez que tive a sensação de estar diante de um LLM que dá para empurrar para resolver corretamente problemas chatos, mas claros
Ele ainda erra bastante e precisa de orientação muito rígida, mas, diferente de outros modelos, é bem bom em acompanhar o próprio raciocínio e se corrigir sozinho
O ponto fraco é o custo. Ele consome tokens como um louco, o preço por token também é alto e, se você usar um fluxo de subagentes para resolver problemas grandes com alta precisão, fica mais caro ainda
Em problemas de grande escala, ele também pode ficar muito mais lento por causa do limite de contexto. Precisa reencontrar o contexto a cada parte e, para manter a precisão, é preciso limpar o contexto antes de passar para o próximo pedaço pequeno ou subir mais agentes
Para algo como uma prova matemática, em que o contexto adicional necessário para entender o problema e a prova é pequeno e o problema é “importante”, pode funcionar bem, mas há limites claros para verificar a correção de código em codebases grandes ou validar hipóteses sutis
Então, a menos que você seja uma dessas pessoas sortudas com acesso ilimitado ao 5.5 Pro, acho que vai levar um tempo até essa capacidade impressionante desse tipo de modelo entrar de fato no dia a dia dos programadores
É um texto longo, misturando partes técnicas de matemática com partes filosóficas, mas um trecho especialmente marcante é a ideia de que ficou mais difícil treinar doutorandos em início de carreira
Antes, dava para começar passando um problema de pesquisa relativamente leve, mas, se um LLM consegue resolver esse tipo de “problema leve”, essa opção deixa de existir
O limite inferior para contribuir com a matemática deixa de ser “algo interessante que ninguém provou ainda” e passa a ser “algo que um LLM não consegue provar”
Ainda assim, o treinamento continua tendo que começar pelo básico. Todo mundo aprende primeiro a somar inteiros pequenos, e calculadoras já fazem isso sem erro há muito tempo
Como em outras partes do texto, é ao resolver problemas difíceis diretamente que se ganha intuição sobre o próprio processo de resolução, e quem já resolveu problemas difíceis provavelmente conseguirá usar melhor a IA
Programação é fazer coisas pelas quais as pessoas pagam, então a IA pode ajudar a entregar mais rápido e continuar empregado, mas não sei se dá para ver a matemática exatamente da mesma forma
Se o LLM fez todas as ideias principais e o trabalho técnico, e o matemático apenas guiou de forma útil, é questionável se isso deve ser visto como uma grande realização do matemático
Nas empresas, quando as pessoas passam trabalho para um LLM, o resultado nem sempre é ruim e às vezes até é aceitável, mas aquilo não é trabalho da pessoa
Por isso, o autor não passa a saber ou entender aquilo melhor do que os outros, nem se apropria daquilo nem consegue explicar direito. É literalmente só um ponto de passagem, então o valor desaparece
Se o LLM resolve a “pesquisa fácil”, esse processo fica mais difícil
Um leão jovem aprende a caçar depois lutando e brincando com outros filhotes, mas, se de repente surgisse TikTok e eles parassem de brincar, a primeira caçada seria muito mais difícil
Também é verdade que a IA permite entregar mais rápido e ganhar dinheiro, mas isso é diferente de se tornar um bom programador. Se você não se torna um bom programador, continua sendo um vibe coder ruim
Um ponto interessante de Baez é a pergunta sobre de onde vem o valor do pensamento e das ideias profundas
Se esse valor vem principalmente da escassez — isto é, do fato de que certas ideias são difíceis de ter — então ele pode despencar quando a produção de ideias for automatizada
Mas, se o valor vem da utilidade das ideias, ou seja, dos benefícios que elas trazem, a história muda. Produzir mais ideias melhores pode na verdade ser ainda melhor
Talvez os matemáticos tenham que se adaptar a uma transição de uma economia da escassez para uma economia da abundância
https://gowers.wordpress.com/2026/05/08/a-recent-experience-...
O segundo é o construtor puro de teorias, com Conway como exemplo, mais interessado em teorias e ideias do que em teoremas, querendo expandir o território da matemática
O terceiro é o matemático aplicado, que vê a matemática como um meio para um fim e quer usar matemática para resolver problemas fora dela
O primeiro grupo, os resolvedores de problemas, parece ser o mais imediatamente ameaçado pela IA. Ainda assim, por enquanto a IA é melhor em resolver problemas do que em encontrar novas conjecturas
O segundo grupo, os construtores de teorias, é ameaçado num futuro mais distante. Até agora, a capacidade da IA de produzir ideias matemáticas novas e interessantes é limitada, e ninguém sabe como treiná-la para isso
O terceiro grupo pode ser o que mais tem a ganhar com a IA. Se a IA responde às perguntas matemáticas, eles podem gastar menos tempo com a matemática em si e focar mais nos problemas externos que queriam resolver com matemática
Já Wiles e Perelman ficaram longe da internet e resolveram problemas de verdade
Como professor de física, uso o Gemini com frequência para revisar artigos, e é uma ferramenta poderosa
Já encontrou erros burocráticos como a ausência da unidade imaginária em uma expressão complexa que eu não tinha achado em dias, e também costuma apontar conexões entre conceitos e ideias que eu deixei passar
Mas também comete erros conceituais com frequência, e eu percebo isso porque conheço bem o assunto. Por exemplo, ele confunde repetidamente o expoente de um bivetor com o expoente de um pseudoescalar na álgebra de Clifford em 3 dimensões
Acredito que o ChatGPT 5.5 Pro consiga produzir um artigo publicável, mas, pelo que vi até agora do Gemini, é melhor tratar um LLM como um aluno extremamente eficiente que lê artigos e livros num instante, mas ainda precisa de muita orientação
Além disso, não há motivo para achar que o avanço dos LLMs — que ainda 3 ou 4 anos atrás nem conseguiam resolver matemática de ensino médio de forma consistente — vá parar em breve
O benchmark CritPt é composto por problemas de física em nível de pesquisa ainda não publicada, então vale acompanhar
https://critpt.com/
Os modelos de ponta ainda estão longe de “resolver”, mas o progresso é rápido. O o3 high tinha 1,4% há 1,5 ano, o GPT 5.4 xhigh tem 23,4%, o GPT-5.5 xhigh 27,1% e o GPT-5.5 Pro xhigh 30,6%
https://artificialanalysis.ai/evaluations/critpt
Eu mesmo continuo cometendo esse erro
Esse também é um dos motivos de ser irritante ter que gerenciar manualmente a memória do LLM com prompts e instruções personalizadas
Ainda não usei direito os recursos de memória de longo prazo, mas imagino que sejam ainda menos confiáveis que prompts. Em 1 ou 2 anos muda coisa demais, então essa “memória” provavelmente teria que ser refeita várias vezes
Sem expectativa, você é obrigado a aceitar tudo ao pé da letra, e aí fica à mercê da máquina
A ideia é trazer fundamentos para fazer sanity check de agentes apressados e também tentar passar esses fundamentos para outras pessoas, para que elas consigam fazer o mesmo
No fim, isso parece o único caminho para o todo funcionar, a menos que um dia as empresas migrem para modelos locais menores e viáveis economicamente
A chance de estar certo e a chance de te jogar de um penhasco parecem meio a meio, mas a viagem sempre vem embalada como um hotel 5 estrelas lindíssimo
Quando você encontra um erro e avisa o LLM, na maioria das vezes piora, porque ele quer agradar, pede desculpas e muda de direção
Quando isso acontece, normalmente salvo ou cancelo a sessão e recomeço do zero, ou então mudo de rumo sem pena
Para mim, o Gemini é o LLM mais imprevisível, e, no geral, o GPT é o que funciona melhor
Recentemente o Gemini me deu duas respostas diferentes para a mesma pergunta. Foi um teste intencional, abrindo um chat novo e colando o mesmo prompt
Em programação, as capacidades de raciocínio não ajudam tanto. As explicações do LLM são muito de alto nível e parecem formalmente corretas
Por causa dos LLMs eu acabo googlando mais. No fim, alguém produz algo que eu mesmo tenho que verificar antes de apertar o botão, e só um pouco depois descubro se aquele botão brilhante vai funcionar ou me conduzir ao inferno
Se um matemático teve uma longa conversa com um LLM, guiando de forma útil, mas o LLM fez todo o trabalho técnico e todas as ideias principais, considerar isso uma grande realização do matemático é uma escolha cultural
É natural que isso soe estranho na cultura matemática atual, mas em outras áreas — e para muitas pessoas — já seria possível considerar que houve uma grande realização humana
Enquanto a colaboração humano-IA produzir os melhores resultados, há contribuição humana significativa, e um especialista profundo e domador habilidoso de LLMs pode contribuir muito
A verdadeira mudança virá quando a IA pura superar tanto humanos quanto colaborações humano-IA
Na matemática também, o humano pode conduzir o LLM pelo caminho certo e direcioná-lo a um problema específico ou a outro, então algum crédito merece
A equipe que construiu o carro, a pessoa que cuidou do cavalo ou a equipe que criou a IA talvez mereçam mais elogios, mas geralmente damos mais atenção à única pessoa mais visível
Se a imagem faz as pessoas rirem, quem digitou o prompt talvez não mereça o grosso do crédito pela produção, mas pode merecer crédito pela ideia inicial e pelo gosto de ter escolhido um resultado específico entre vários rascunhos
Se um matemático conseguiu um resultado surpreendente que o LLM “fez”, acho que algum crédito cabe pelos prompts e pela condução
Mas a questão é se essa primeira pessoa talvez não fosse um artista, e sim um comediante — e se esse matemático continua sendo um matemático ou virou outra coisa
Basta pagar o mesmo que se pagaria a outros matemáticos. Claro, isso significaria muitos matemáticos bilionários, então essa recompensa seria bem grande
A frase “se o objetivo de fazer matemática é obter algum tipo de imortalidade, talvez isso não seja mais possível por muito tempo” me pareceu um pouco triste
A abertura do filme é cheia de estudantes circulando pelo campus do MIT e de toda a promessa e status que o ensino superior traz
Quando percebi quanta coisa pode ser entregue à IA, senti uma tristeza parecida
[0] - https://youtu.be/0lsUsWdkk0Y?si=TJl7f_b1RcWcDqF8&t=278
A ideia seguinte foi: “Em que eu sou bom?”. E ali dentro havia pelo menos “Em que eu poderia ser de nível mundial?” ou “Em que eu poderia ser muito bom?”
Nunca achei que fosse suficiente encontrar algum resultado, dar meu nome a ele e sobreviver a mim mesmo o bastante para alcançar imortalidade matemática, mas, se tivesse pensado assim, essa má notícia talvez tivesse me abalado de forma parecida
Ainda assim, na margem, discordo da premissa. Não importa quantos assistentes de prova ou quantos clusters de computação sejam usados: a equipe ou a pessoa que provar a hipótese de Riemann vai ficar famosa. Pelo menos no mundo da matemática
Provavelmente muitos miravam aplicações práticas indiretas — matemática → física → engenharia — ou faziam isso simplesmente pela beleza da matemática e pelo prazer intelectual
A IA pode até capturar a parte das aplicações práticas, mas os outros aspectos ainda podem ser aproveitados
Como pós-graduando, esse texto me deixou triste. Eu acreditava que meu trabalho diria algo que iria além de mim, além do tempo limitado que me foi dado nesta experiência cósmica
Esse sentimento de imortalidade era um pequeno bônus intangível que eu esperava ao entrar na pós, mas por causa da IA eu me sinto menos valioso
Vale a pena fazer esse trabalho porque você pode fazê-lo. Espero que você o faça por amor, e por amor ao mistério
Espero que consiga desfrutar cada momento em que pode fazer esse trabalho. Ao contrário de quem vive atolado em coisas que não dão satisfação, procure alegria na grande sorte que é poder fazer isso
Às vezes é entediante, mas às vezes é incrivelmente gratificante por si só
Só não trabalhe pela possibilidade de glória eterna. Isso já não existe mais
Não há desafio maior do que esse
Como professor assistente de ciência da computação teórica no Leste Europeu, sempre sinto um pouco de inveja ao ver grandes nomes da matemática terem acesso fácil a modelos caros de raciocínio de longa duração
Com o orçamento acadêmico atual, pagar o Pro aqui está fora da realidade. O orçamento tem uso restrito e quase não há rubricas em que pagamentos de software se encaixem
Na prática, seria preciso pedir um novo financiamento, torcer para que as regras permitam um grande gasto com software e para não cair com um avaliador anti-IA. Esse processo leva pelo menos 1 ano
Para piorar, a Microsoft apertou o acesso ao Copilot para uso pessoal e acadêmico, e isso também bloqueou recentemente o acesso ao Claude Opus
O ChatGPT 5.5 Plus não me pareceu suficiente para mergulhar fundo em novos temas de pesquisa, e eu mesmo testei isso
Levaram 2 anos para configurar esse serviço, e ele oferece só o gpt-oss-120b, então todo mundo continua usando outros serviços
Mesmo assim, algum administrador agora pode espalhar a palavra “IA” por todo o site da universidade e ganhar uma desculpa para negar pedidos de assinatura, dizendo que “já temos IA”
Há o exemplo das botas compradas por ricos e pobres. As botas do pobre se desgastam e precisam ser trocadas sempre, enquanto as do rico são de qualidade melhor e duram anos
Com o tempo, o pobre acaba gastando mais dinheiro com botas
Se usar com parcimônia, normalmente sai bem barato
Mesmo que a universidade não cubra, imagino que você gostaria de pagar isso pelos seus próprios objetivos
Não estou tentando criticar, só quero saber se esse custo é completamente inacessível para a maioria dos pesquisadores daí
Há uns 10 anos, numa reunião conjunta AMS-MAA em Seattle, vi Tim Gowers dar uma palestra em que previu que, em 100 anos, os humanos não fariam mais matemática de pesquisa. Fico curioso se ele revisaria esse cronograma hoje
Na época, achei que a ferramenta crucial que faltava era uma busca em linguagem natural funcionando como o MathOverflow. Você descreve o problema ou a ideia do jeito que entende, e ela encontra literatura relacionada que esteja fora da sua experiência ou do seu vocabulário
Ser um grande matemático não significa estar certo. Na verdade, matemáticos costumam ter teorias bem esquisitas
A esmagadora maioria dos estudantes que vai entrar no ensino superior neste outono, mesmo que faça pesquisa, só conseguirá contribuir de forma relevante para a ciência daqui a 4 ou 5 anos. Se pensarmos no momento em que um doutorado realmente engrena, na prática são 6 ou 7 anos
Olhando para o nível dos modelos de 5 a 7 anos atrás, nem havia no radar algo como uma ameaça existencial ao doutorado. Quem está terminando o doutorado agora é a primeira geração capaz de aproveitar essas ferramentas de verdade
Agora surgem problemas se estudantes que querem virar pesquisadores desistem por sensação de derrota ou passam a depender totalmente dos modelos de IA para fazer o trabalho
O mesmo vale para o financiamento de vagas de doutorado. Se o apoio deixar de ser para “formar pesquisadores” e passar a ser para “entregar resultados”, o dinheiro antes destinado a doutorandos pode acabar indo para recursos computacionais
Vendo de forma cínica, alguns pesquisadores podem gerar muito mais artigos gastando dinheiro com computação do que treinando estudantes por vários anos
São tempos interessantes, mas a incerteza é grande demais. Dá pena dos estudantes que precisam decidir agora o que fazer
Especialmente em áreas mais brandas, já dá para comprar hoje tese de doutorado e um bom histórico de publicações
Se você está na indústria em vez da academia, também dá para comprar promoção. Se o empregador dá um orçamento de IA para todos, basta dobrar esse orçamento discretamente com dinheiro do próprio bolso até ser promovido, e depois parar e aproveitar o salário maior
Dá para ver que isso permitiu fazer pesquisa que antes não seria possível
Também dá para ver que usar IA enfraqueceu até certo ponto a capacidade de escrever código manualmente, mas vejo isso como scikit-learn ou Pytorch para montar modelos de machine learning
Os detalhes de baixo nível ficam abstraídos e sem IA a pessoa talvez não consiga fazer muito, mas essa pesquisa de fato acontece por causa dela, e não teria acontecido só com a IA
Esse dinheiro é mais parecido com uma linha orçamentária acrescentada depois, e não um alvo tão atraente a ponto de ser drenado para algo caro e para outros procedimentos