2 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Tim Gowers obteve com o ChatGPT 5.5 Pro um resultado de pesquisa em nível de doutorado em combinatória em cerca de 1 hora, e considera que sua própria contribuição matemática foi praticamente nula
  • O ChatGPT 5.5 Pro apresentou em 17 minutos e 5 segundos uma construção de melhor limite superior quadrático possível para o diâmetro de conjuntos com um tamanho de conjunto soma dado, no problema de teoria aditiva dos números de Mel Nathanson
  • Em seguida, resolveu da mesma forma o problema de conjunto soma restrito e chegou até a um argumento que melhora o limite exponencial existente de Isaac Rajagopal para uma dependência polinomial, o que pareceu a Rajagopal quase certamente correto
  • A ideia central foi substituir, na construção de Rajagopal, componentes em progressão geométrica por uma construção baseada em conjuntos h-dissociados, reproduzindo o padrão necessário de tamanhos de conjuntos soma dentro de um intervalo de tamanho polinomial
  • Os resultados gerados pela IA parecem ter nível de publicação, mas pode ser necessário um repositório separado em que matemáticos humanos certifiquem a correção, em vez de publicação em periódico ou registro no arXiv, e o padrão de formação de pesquisadores iniciantes também pode migrar para provar coisas que o LLM sozinho não consegue fazer, colaborando com LLMs

Resolução de problemas de combinatória transformada por LLMs

  • Grandes modelos de linguagem já parecem estar em um estágio em que conseguem resolver problemas em nível de pesquisa, e também se diz que já resolveram vários problemas publicados no site de problemas de Erdős de Thomas Bloom
  • Nos primeiros resultados com LLMs, muitas vezes eles encontravam respostas já existentes na literatura ou tiravam conclusões que decorriam facilmente de resultados conhecidos, mas agora cresce a possibilidade de que o LLM encontre argumentos simples que passaram despercebidos pelos humanos
  • Na matemática humana também há uma parte considerável do trabalho que consiste em combinar conhecimento existente e técnicas de prova, portanto o consolo de que LLMs “apenas combinam conhecimento existente” é limitado
  • Em combinatória, artigos que introduzem novos parâmetros combinatórios naturalmente geram vários problemas e antes eram uma boa fonte de problemas abertos para pesquisadores iniciantes, mas agora o novo critério passa a ser se eles são difíceis o bastante para que um LLM não consiga resolvê-los

O problema de Nathanson e o primeiro resultado

  • Gowers fez o ChatGPT 5.5 Pro tentar problemas do artigo de Mel Nathanson, Diversity, Equity and Inclusion for Problems in Additive Number Theory
  • Nathanson é apresentado como alguém que se interessou cedo por problemas e teoremas que depois se tornaram populares, e que por isso escreveu livros didáticos oportunos e influentes
  • O objeto central são os conjuntos soma (sumsets) de conjuntos de inteiros, conjuntos soma obtidos por somas repetidas e os tamanhos de conjuntos soma possíveis para uma quantidade dada de elementos
  • Quando o número de elementos é dado, os tamanhos de conjuntos soma possíveis nem sempre cobrem todos os valores entre o mínimo e o máximo, e ainda não há uma caracterização completa
  • Nathanson apresentou um limite superior para o diâmetro (diameter) necessário ao construir um conjunto com uma quantidade dada de elementos e um tamanho de conjunto soma dado, e perguntou se esse limite poderia ser melhorado
  • Depois de pensar por 17 minutos e 5 segundos, o ChatGPT 5.5 Pro apresentou uma construção que dá um limite superior quadrático que não pode deixar de ser o melhor possível
  • Quando Gowers pediu que ele reescrevesse isso como um arquivo LaTeX no estilo usual de um preprint matemático, o ChatGPT entregou esse formato 2 minutos e 23 segundos depois, e Gowers passou então a gastar tempo verificando se o argumento estava correto

Conjuntos de Sidon e extensão para conjuntos soma restritos

  • Tanto o argumento de Nathanson quanto o do ChatGPT se baseiam na ideia de usar juntos conjuntos de Sidon e progressões aritméticas para construir conjuntos de tamanho dado e conjuntos soma de tamanho dado
  • Aqui, conjuntos de Sidon são usados no sentido simplificado de conjuntos cujo tamanho do conjunto soma é máximo
  • Para ajustes finos, pode-se acrescentar um ponto extra perto da progressão aritmética, e ao ajustar vários parâmetros obtêm-se conjuntos com os tamanhos desejados
  • Nathanson apresentou um argumento indutivo no Teorema 5 deste artigo, mas, ao expandi-lo, a estrutura na prática parece usar um conjunto de Sidon formado por potências de 2
  • A melhora do ChatGPT veio do uso de um conjunto de Sidon mais eficiente, e é bem conhecido que se podem encontrar conjuntos de Sidon com diâmetro quadrático
  • Gowers então testou também um problema próximo, que considera o tamanho do conjunto soma restrito (restricted sumset) em vez do tamanho do conjunto soma, e o ChatGPT obteve um resultado do mesmo tipo sem grande dificuldade
  • O documento que organiza os dois resultados em uma única nota, sem duplicação, está disponível aqui

O problema de grau geral e a melhora do artigo de Rajagopal

  • Gowers também perguntou o que o ChatGPT seria capaz de fazer no caso mais geral
  • Originalmente, ele era muito menos otimista, porque a prova anterior dependia essencialmente do resultado de Erdős e Szemerédi, isto é, do fato de se conhecerem exatamente os tamanhos que precisavam ser produzidos
  • No artigo de Nathanson aparece um trabalho do estudante do MIT Isaac Rajagopal, no qual Rajagopal provou dependência exponencial para cada grau fixo
  • Para Rajagopal, a dificuldade real não estava em “não conhecer o conjunto de tamanhos possíveis”
    • Seu argumento fornece uma caracterização completa para casos suficientemente grandes
    • Para mostrar dependência polinomial em um grau fixo, basta supor apenas os casos suficientemente grandes
    • A dificuldade real está no fato de que a construção de um conjunto com o tamanho de conjunto soma dado é muito mais complexa e, à medida que o grau aumenta, o grau do polinômio também aumenta, exigindo mais parâmetros
  • A tarefa do ChatGPT não era resolver o problema do zero, mas apertar o argumento de Rajagopal
  • O processo foi o seguinte
    • Após 16 minutos e 41 segundos, ele apresentou um argumento que melhorava o limite existente de uma função exponencial para uma forma exponencial menor, para qualquer constante positiva arbitrária
    • Levaram mais 47 minutos e 39 segundos para redigir isso em formato de preprint
    • Gowers enviou isso a Nathanson, que repassou a Rajagopal, e a Rajagopal pareceu correto
    • Tanto o ChatGPT quanto Rajagopal fizeram algumas conjecturas sobre o que seria necessário para avançar até um limite polinomial, e Gowers fez o ChatGPT tentar isso
    • Após 13 minutos e 33 segundos, o ChatGPT respondeu que estava otimista quanto à possibilidade de existir tal argumento, mas que havia algumas proposições técnicas a verificar
    • Quando lhe pediram a verificação, 9 minutos e 12 segundos depois ele havia concluído a checagem, e então lhe pediram novamente a redação em formato de preprint
    • Após 31 minutos e 40 segundos, o preprint ficou pronto, e o documento está disponível aqui
    • Rajagopal o considerou quase certamente correto, e isso foi entendido no sentido não apenas linha a linha, mas também no nível das ideias

Onde colocar resultados matemáticos produzidos por IA

  • Se o resultado tivesse sido produzido por um humano, ele seria publicável, portanto parece inadequado chamá-lo de AI slop
  • Por outro lado, publicá-lo em periódico não parece ter muito sentido
    • O resultado pode ser divulgado gratuitamente
    • Ninguém precisa de “crédito”
    • Ainda assim, Rajagopal merece muito crédito por ter criado a estrutura sobre a qual o ChatGPT pôde construir
  • Entende-se que o arXiv tem uma política de não aceitar conteúdo escrito por IA, e isso parece razoável
  • Pode ser necessário um repositório separado para resultados produzidos por IA
    • Pode ser desejável um procedimento editorial que inclua apenas resultados cuja correção tenha sido certificada por matemáticos humanos
    • Melhor ainda se forem resultados formalizados com assistentes de prova
    • Outro critério pode ser se o resultado responde a uma pergunta levantada em um artigo escrito por humanos
  • Seria problemático se esse procedimento editorial criasse uma carga de trabalho enorme, e há riscos claros em direcionar esse trabalho novamente para a IA
  • Por enquanto, esses resultados podem ser acessados por links públicos e, como a capacidade de busca bibliográfica dos LLMs melhorou, talvez eles possam ser encontrados por alguém que tente descobrir se o problema de Nathanson já foi resolvido

Avaliação de Isaac Rajagopal e contexto técnico

  • Contribuição central do ChatGPT

    • O ChatGPT melhorou um certo limite de uma dependência exponencial para uma dependência polinomial com apenas alguns prompts
    • A primeira melhoria foi uma modificação relativamente rotineira do trabalho de Rajagopal, mas a melhoria polinomial foi bastante impressionante
    • A ideia proposta pelo ChatGPT era original e engenhosa, do tipo da qual Rajagopal se orgulharia se tivesse chegado a ela depois de pensar por 1 ou 2 semanas
    • O ChatGPT encontrou e demonstrou a ideia em menos de uma hora, usando um método parecido com o da própria demonstração de Rajagopal
  • Contexto do problema

    • Esse problema de limite está intimamente ligado a um problema com que Rajagopal trabalhou no programa Duluth REU (Research Experience for Undergrads)
    • O objeto central é o conjunto dos tamanhos possíveis de somatórios múltiplos e o menor intervalo necessário para realizá-los todos com conjuntos de inteiros com um certo número de elementos
    • Rajagopal caracterizou explicitamente no verão passado o conjunto de valores possíveis no caso suficientemente grande
    • Ele construiu conjuntos que realizam todos os tamanhos que não conseguiu excluir como impossíveis, e assim o limite correspondente pode ser obtido otimizando essa construção
  • Substituição da construção de tamanho exponencial

    • A construção original de Rajagopal combinava vários conjuntos pequenos de componentes, fáceis de analisar
    • Alguns componentes tinham a forma de progressões geométricas em parâmetros de vários valores, e seus elementos cresciam exponencialmente em relação ao parâmetro
    • Por meio de Tim, Rajagopal perguntou ao ChatGPT se existia um conjunto com tamanhos de somatórios parecidos com os dessa progressão geométrica, mas com elementos limitados polinomialmente em relação ao parâmetro
    • O ChatGPT construiu conjuntos que se comportam como se “empurrassem metade de uma progressão geométrica para dentro de um intervalo polinomial”
    • Isso parece ser uma construção contraintuitiva

Conjuntos Bₕ, conjuntos dissociated e a ideia de construção do ChatGPT

  • O papel dos conjuntos Bₕ

    • Para uma ordem dada, um conjunto sem relações de soma, exceto soluções triviais em que uma soma é apenas uma permutação da outra, é chamado de conjunto Bₕ
    • Em um conjunto Bₕ de tamanho fixo, a forma de escolher elementos com repetição corresponde exatamente aos elementos do somatório múltiplo
    • Pelo argumento de “stars and bars”, esse é o maior tamanho possível de somatório múltiplo entre conjuntos do mesmo tamanho
    • Conjuntos de Sidon são, nessa perspectiva, conjuntos B₂
  • A propriedade reproduzida pela progressão geométrica

    • Certos conjuntos em progressão geométrica são conjuntos Bₕ, mas não conjuntos B de ordem mais alta
    • As relações que atrapalham aparecem como relações de soma de uma forma fixa
    • Em um conjunto, o tamanho do somatório é uma função linear do parâmetro, e em outro é uma função quadrática
    • O ChatGPT encontrou novos conjuntos que satisfazem essas quatro propriedades, mas cujos elementos têm todos tamanho polinomial no parâmetro
  • Uso de conjuntos h-dissociated

    • A construção do ChatGPT usa conjuntos h-dissociated
    • Um conjunto h-dissociated é um conjunto em que, em relações de soma até uma ordem limitada, só são permitidas soluções triviais
    • É possível construir conjuntos h-dissociated com tamanho aproximadamente igual ao parâmetro e diâmetro polinomial
    • Esse tipo de construção remonta às construções de Singer (1938) e Bose–Chowla (1963), que usam corpos finitos, explicadas no Appendix 1
  • A intuição de conter apenas metade do número de relações

    • Os dois conjuntos criados pelo ChatGPT contêm, em comparação com seus correspondentes em progressão geométrica, cerca de metade de certas relações de soma
    • Ao mesmo tempo, graças à propriedade h-dissociated, quase não há outras relações de baixa ordem
    • Como resultado, eles reproduzem o padrão necessário de tamanhos de somatórios permanecendo dentro de um intervalo polinomial
    • Para Rajagopal, a ideia do ChatGPT de controlar relações até certa ordem com conjuntos h-dissociated foi extremamente astuta e pareceu totalmente original

Correspondência entre a demonstração do ChatGPT e a de Rajagopal

  • A demonstração do ChatGPT é muito parecida com a forma obtida ao substituir, na demonstração original de Rajagopal, os componentes em progressão geométrica pelos novos componentes do ChatGPT
  • A construção final combina os novos conjuntos para vários valores de ordem, e ainda os combina com outro conjunto formado por um somatório de uma progressão aritmética com um ponto
  • Intuitivamente, os novos conjuntos parecem produzir somatórios grandes, enquanto a progressão aritmética produz somatórios pequenos, então a combinação dos dois parece capaz de gerar todos os somatórios de tamanho intermediário
  • A demonstração real é bastante complexa e ocupa a Section 4 do artigo de Rajagopal e todo o preprint do ChatGPT
  • Para comparação, é fácil ver que o limite inferior positivo correspondente é pelo menos da ordem de uma certa potência da ordem, mas o valor real é desconhecido
  • Rajagopal disse ter ficado surpreso com o fato de o problema dado por Tim ao ChatGPT 5.5 Pro ter levado, por acaso, ao seu próprio artigo no arXiv

Implicações para a pesquisa matemática e a formação no doutorado

  • O resultado encontrado pelo ChatGPT em duas horas foi avaliado como algo no nível de um capítulo perfeitamente razoável de uma tese de doutorado em combinatória
  • Não é um resultado surpreendente, já que depende fortemente da ideia de Isaac, mas foi uma extensão não trivial dessa ideia
  • Para um estudante de doutorado encontrar a mesma extensão, provavelmente precisaria de bastante tempo para assimilar o artigo de Rajagopal, identificar os pontos que talvez não sejam ótimos e se familiarizar com as várias técnicas algébricas utilizadas
  • O modelo de formação em pesquisa que consiste em dar a um aluno iniciante de doutorado um problema aberto relativamente “suave” pode se tornar mais difícil
  • Se um LLM consegue resolver “problemas suaves”, então o limite inferior para contribuir em matemática deixa de ser “um resultado que ninguém ainda provou e que alguém considera interessante” e passa a ser algo mais próximo de “um resultado que o LLM não consegue provar”
  • Como até iniciantes podem usar LLMs, a tarefa real talvez seja provar, em colaboração com o LLM, aquilo que o LLM sozinho não consegue fazer
  • Gowers colaborou recentemente várias vezes com LLMs e considera que, embora ainda não tenham surgido ideias revolucionárias, elas já produziram contribuições úteis

Diferenças entre áreas e mudanças futuras

  • Não está claro até que ponto essa mudança se generaliza para outras áreas da matemática
  • A combinatória tem uma tendência fortemente orientada a problemas
    • Parte da pergunta e raciocina de trás para frente, ou, mesmo quando raciocina para frente, mantém a pergunta fortemente em vista
  • Em outras áreas, pode ser mais importante o raciocínio para frente, que parte do universo de ideias e observa aonde ele leva
  • Nessas áreas, é preciso saber distinguir observações interessantes de observações sem interesse, e não está claro o quão bem os LLMs conseguem fazer isso
  • O ritmo de avanço é tão rápido que avaliações atuais sobre LLMs provavelmente ficarão obsoletas em poucos meses
  • A forma de fazer pesquisa em matemática, especialmente de introduzir novos pesquisadores à área, provavelmente será profundamente perturbada
  • Quem começar o doutorado no próximo ano letivo, no melhor dos casos terminará em 2029, e até lá o significado de fazer pesquisa em matemática pode ter mudado a ponto de ficar irreconhecível em relação ao de hoje

Mudança no motivo para fazer matemática

  • O autor diz que recebe com frequência e-mails perguntando se ainda faz sentido seguir a pesquisa em matemática como carreira
  • Continuar lidando com problemas matemáticos ainda tem grande valor, mas a era em que se podia ter a alegria de ver o próprio nome ligado para sempre a certo teorema ou definição pode estar chegando ao fim
  • Se o objetivo de fazer matemática é uma espécie de imortalidade, é preciso entender que isso talvez não seja mais possível por muito tempo
  • Como experimento mental, se um matemático mantivesse uma longa conversa com um LLM e desempenhasse um papel útil de orientação, mas todo o trabalho técnico e a ideia central para resolver um grande problema fossem realizados pelo LLM, é duvidoso que isso fosse considerado uma grande realização desse matemático
  • Resolver um problema cujo resultado já é conhecido ainda pode ser satisfatório, mas isso não basta como motivo para dedicar vários anos da vida
  • Um motivo melhor é que, ao resolver problemas difíceis, a pessoa obtém insight sobre o próprio processo de resolução de problemas em sua área de especialidade
  • Quem já resolveu diretamente problemas difíceis provavelmente também será melhor em resolvê-los com ajuda de IA
    • É parecido com o fato de um bom programador fazer vibe coding melhor do que alguém que não é
    • É parecido com o fato de alguém que entende bem aritmética básica usar melhor uma calculadora e, especialmente, perceber melhor quando a resposta parece estranha
  • A matemática é uma habilidade altamente transferível, e isso também vale para a matemática em nível de pesquisa
  • A pesquisa em matemática talvez não traga as mesmas recompensas que trouxe para gerações anteriores, mas ainda pode preparar muito bem para o mundo que está por vir

Conteúdo técnico do apêndice

  • Apêndice 1: construção de um conjunto h-dissociated

    • O objetivo é construir um conjunto h-dissociated cujo diâmetro seja aproximadamente de ordem polinomial
    • Essa construção é uma modificação muito pequena da construção de Bose–Chowla (1963), e Rajagopal afirma ter aprendido isso neste artigo
    • O Lema 3.1 do preprint do ChatGPT usa uma construção diferente e menos eficiente que utiliza a moment curve
    • A construção usa primos, corpos finitos, um gerador de uma extensão de corpo finito e uma forma de associar cada elemento a uma expressão de potência específica
    • Relações aditivas até um grau limitado podem ser reinterpretadas como relações de potências do gerador
    • Devido ao grau da extensão e às propriedades do gerador, elas não satisfazem polinômios não nulos de baixo grau, então os polinômios dos dois lados devem ser idênticos
    • Portanto, a relação aditiva em questão só pode ser trivial, e o conjunto se torna h-dissociated
    • Se necessário, é possível remover alguns elementos para reduzir ao tamanho desejado
  • Apêndice 2: estrutura detalhada da construção do ChatGPT

    • Escolhem-se constantes fixas e usam-se dois conjuntos criados pelo ChatGPT
    • A construção do conjunto que atinge o tamanho desejado combina quatro tipos de componentes
      • Um tipo que escolhe dois parâmetros
      • Dois tipos que escolhem dois parâmetros para cada valor de grau
      • Um conjunto que ajusta o número total de elementos para que fique correto
    • Uma das razões para essa construção ser complexa é que ela precisa gerar conjuntos distintos em quantidade suficiente
    • Para isso, variam-se conjuntamente parâmetros de uma região e parâmetros de outra região
    • Se um dos parâmetros for removido e os demais forem mantidos, deixa de ser possível gerar conjuntos em quantidade suficiente para o necessário
    • A construção de Nathanson para grau 2 tem uma estrutura mais simples, combinando um conjunto de Sidon, uma progressão aritmética e um valor adicional, e criando os conjuntos necessários ao variar o tamanho da progressão aritmética e o valor adicional dentro de um certo intervalo
    • Com a construção do Apêndice 1, é possível obter, para cada grau, um conjunto h-dissociated com diâmetro polinomial
    • Ao combinar vários componentes, usa-se uma estrutura em forma de grade com vetores de base
    • Essa construção garante uma identidade de multiplicação de funções geradoras, de forma semelhante ao Lema 4.9 de Rajagopal
    • De acordo com o Lema 2.3 padrão do preprint do ChatGPT, essa construção pode ser transferida para um subconjunto de um intervalo de inteiros por meio de um isomorfismo de Freiman de certa ordem
    • A construção completa funciona para casos suficientemente grandes
  • Apêndice 3: correspondência entre o artigo de Rajagopal e o preprint do ChatGPT

    • A Seção 4.2 do artigo de Rajagopal usa uma construção mais simples para criar conjuntos que atingem certos valores específicos
    • Esses conjuntos são subconjuntos de um intervalo cujos elementos têm tamanho polinomial, e esse fato é observado na Seção 5 do preprint do ChatGPT
    • A Seção 4.3 do artigo de Rajagopal realiza a construção principal que combina vários componentes e corresponde às Seções 2, 3, 4 e 6 do preprint do ChatGPT
    • A Seção 4.3.1 do artigo de Rajagopal oferece uma visão geral dessa parte, que tem muitos elementos variáveis
    • A Seção 4.3.2 do artigo de Rajagopal explica como os componentes são combinados, e Rajagopal chama isso de disjoint union
    • Funções geradoras são introduzidas como ferramenta de organização para acompanhar o tamanho da união dos conjuntos, o que corresponde à Seção 2 e à Seção 4 do preprint do ChatGPT
    • A Seção 4.3.3 do artigo de Rajagopal calcula as funções geradoras de cada conjunto componente e inclui o Lema 4.15 e o Lema 4.17
    • Isso corresponde à Seção 3 e à Seção 6.1 do preprint do ChatGPT, e no preprint do ChatGPT uma função geradora é calculada no Lema 3.3 e a outra no Lema 3.4
    • Depois de calcular as funções geradoras, o restante da prova é quase idêntico no artigo de Rajagopal e no preprint do ChatGPT
    • A Seção 4.3.4 do artigo de Rajagopal mostra que, ao variar os conjuntos construídos, os valores do tamanho da união assumem todos os valores possíveis
    • O ponto central é que o conjunto de valores possíveis forma um intervalo único e inclui todos os números menores que, e iguais a, um certo valor de referência

1 comentários

 
GN⁺ 1 시간 전
Comentários do Hacker News
  • Bate com a minha experiência de ter usado o 5.5 Pro por pouco tempo. Foi a primeira vez que tive a sensação de estar diante de um LLM que dá para empurrar para resolver corretamente problemas chatos, mas claros
    Ele ainda erra bastante e precisa de orientação muito rígida, mas, diferente de outros modelos, é bem bom em acompanhar o próprio raciocínio e se corrigir sozinho
    O ponto fraco é o custo. Ele consome tokens como um louco, o preço por token também é alto e, se você usar um fluxo de subagentes para resolver problemas grandes com alta precisão, fica mais caro ainda
    Em problemas de grande escala, ele também pode ficar muito mais lento por causa do limite de contexto. Precisa reencontrar o contexto a cada parte e, para manter a precisão, é preciso limpar o contexto antes de passar para o próximo pedaço pequeno ou subir mais agentes
    Para algo como uma prova matemática, em que o contexto adicional necessário para entender o problema e a prova é pequeno e o problema é “importante”, pode funcionar bem, mas há limites claros para verificar a correção de código em codebases grandes ou validar hipóteses sutis
    Então, a menos que você seja uma dessas pessoas sortudas com acesso ilimitado ao 5.5 Pro, acho que vai levar um tempo até essa capacidade impressionante desse tipo de modelo entrar de fato no dia a dia dos programadores

  • É um texto longo, misturando partes técnicas de matemática com partes filosóficas, mas um trecho especialmente marcante é a ideia de que ficou mais difícil treinar doutorandos em início de carreira
    Antes, dava para começar passando um problema de pesquisa relativamente leve, mas, se um LLM consegue resolver esse tipo de “problema leve”, essa opção deixa de existir
    O limite inferior para contribuir com a matemática deixa de ser “algo interessante que ninguém provou ainda” e passa a ser “algo que um LLM não consegue provar”
    Ainda assim, o treinamento continua tendo que começar pelo básico. Todo mundo aprende primeiro a somar inteiros pequenos, e calculadoras já fazem isso sem erro há muito tempo
    Como em outras partes do texto, é ao resolver problemas difíceis diretamente que se ganha intuição sobre o próprio processo de resolução, e quem já resolveu problemas difíceis provavelmente conseguirá usar melhor a IA
    Programação é fazer coisas pelas quais as pessoas pagam, então a IA pode ajudar a entregar mais rápido e continuar empregado, mas não sei se dá para ver a matemática exatamente da mesma forma
    Se o LLM fez todas as ideias principais e o trabalho técnico, e o matemático apenas guiou de forma útil, é questionável se isso deve ser visto como uma grande realização do matemático

    • Resolver um problema difícil diretamente não só faz você ficar melhor em resolver outros problemas, como também leva a uma compreensão muito mais profunda daquele problema em si
      Nas empresas, quando as pessoas passam trabalho para um LLM, o resultado nem sempre é ruim e às vezes até é aceitável, mas aquilo não é trabalho da pessoa
      Por isso, o autor não passa a saber ou entender aquilo melhor do que os outros, nem se apropria daquilo nem consegue explicar direito. É literalmente só um ponto de passagem, então o valor desaparece
    • Talvez isso também devesse ser considerado uma grande realização
    • Acho que isso perde um pouco os dois pontos centrais. É verdade que se deve aprender desde o básico, mas em certo momento, por exemplo ao começar o doutorado, não se trata mais de aprendizado básico, e sim de pesquisa
      Se o LLM resolve a “pesquisa fácil”, esse processo fica mais difícil
      Um leão jovem aprende a caçar depois lutando e brincando com outros filhotes, mas, se de repente surgisse TikTok e eles parassem de brincar, a primeira caçada seria muito mais difícil
      Também é verdade que a IA permite entregar mais rápido e ganhar dinheiro, mas isso é diferente de se tornar um bom programador. Se você não se torna um bom programador, continua sendo um vibe coder ruim
    • Isso realmente importa? E, filosoficamente, é assim tão diferente das antigas provas assistidas por computador?
  • Um ponto interessante de Baez é a pergunta sobre de onde vem o valor do pensamento e das ideias profundas
    Se esse valor vem principalmente da escassez — isto é, do fato de que certas ideias são difíceis de ter — então ele pode despencar quando a produção de ideias for automatizada
    Mas, se o valor vem da utilidade das ideias, ou seja, dos benefícios que elas trazem, a história muda. Produzir mais ideias melhores pode na verdade ser ainda melhor
    Talvez os matemáticos tenham que se adaptar a uma transição de uma economia da escassez para uma economia da abundância
    https://gowers.wordpress.com/2026/05/08/a-recent-experience-...

    • Existem três tipos de matemáticos. O primeiro é o resolvedor puro de problemas, com Tao como exemplo, e a moeda deles são problemas interessantes e suas soluções
      O segundo é o construtor puro de teorias, com Conway como exemplo, mais interessado em teorias e ideias do que em teoremas, querendo expandir o território da matemática
      O terceiro é o matemático aplicado, que vê a matemática como um meio para um fim e quer usar matemática para resolver problemas fora dela
      O primeiro grupo, os resolvedores de problemas, parece ser o mais imediatamente ameaçado pela IA. Ainda assim, por enquanto a IA é melhor em resolver problemas do que em encontrar novas conjecturas
      O segundo grupo, os construtores de teorias, é ameaçado num futuro mais distante. Até agora, a capacidade da IA de produzir ideias matemáticas novas e interessantes é limitada, e ninguém sabe como treiná-la para isso
      O terceiro grupo pode ser o que mais tem a ganhar com a IA. Se a IA responde às perguntas matemáticas, eles podem gastar menos tempo com a matemática em si e focar mais nos problemas externos que queriam resolver com matemática
    • Parece que quem fica empurrando novidades são sempre os mesmos comentaristas online. Mesmo acadêmicos brilhantes são assim
      Já Wiles e Perelman ficaram longe da internet e resolveram problemas de verdade
  • Como professor de física, uso o Gemini com frequência para revisar artigos, e é uma ferramenta poderosa
    Já encontrou erros burocráticos como a ausência da unidade imaginária em uma expressão complexa que eu não tinha achado em dias, e também costuma apontar conexões entre conceitos e ideias que eu deixei passar
    Mas também comete erros conceituais com frequência, e eu percebo isso porque conheço bem o assunto. Por exemplo, ele confunde repetidamente o expoente de um bivetor com o expoente de um pseudoescalar na álgebra de Clifford em 3 dimensões
    Acredito que o ChatGPT 5.5 Pro consiga produzir um artigo publicável, mas, pelo que vi até agora do Gemini, é melhor tratar um LLM como um aluno extremamente eficiente que lê artigos e livros num instante, mas ainda precisa de muita orientação

    • A experiência acima parece ter sido com o Gemini 3.1 Pro “normal”, e não com o modo Deep Think, que é mais parecido com o GPT-5.5 Pro. O 3.1 Pro normal está um degrau abaixo e erra mais
      Além disso, não há motivo para achar que o avanço dos LLMs — que ainda 3 ou 4 anos atrás nem conseguiam resolver matemática de ensino médio de forma consistente — vá parar em breve
      O benchmark CritPt é composto por problemas de física em nível de pesquisa ainda não publicada, então vale acompanhar
      https://critpt.com/
      Os modelos de ponta ainda estão longe de “resolver”, mas o progresso é rápido. O o3 high tinha 1,4% há 1,5 ano, o GPT 5.4 xhigh tem 23,4%, o GPT-5.5 xhigh 27,1% e o GPT-5.5 Pro xhigh 30,6%
      https://artificialanalysis.ai/evaluations/critpt
    • Chamar isso de “mentoria” é antropomorfizar e faz a gente pensar inconscientemente que o modelo vai aprender. Na prática ele não aprende, e é bem difícil para humanos lembrar o tempo todo que algo que parece tão inteligente quanto um LLM na verdade não aprende
      Eu mesmo continuo cometendo esse erro
      Esse também é um dos motivos de ser irritante ter que gerenciar manualmente a memória do LLM com prompts e instruções personalizadas
      Ainda não usei direito os recursos de memória de longo prazo, mas imagino que sejam ainda menos confiáveis que prompts. Em 1 ou 2 anos muda coisa demais, então essa “memória” provavelmente teria que ser refeita várias vezes
    • LLMs funcionam melhor quando você tem uma expectativa sobre a saída. Em geral, quando você conhece o formato da resposta correta, consegue avaliar mais pelo feeling do que linha por linha
      Sem expectativa, você é obrigado a aceitar tudo ao pé da letra, e aí fica à mercê da máquina
    • Não sou professor de física, mas isso se parece com a forma como usamos essas ferramentas no nível de engenheiro sênior
      A ideia é trazer fundamentos para fazer sanity check de agentes apressados e também tentar passar esses fundamentos para outras pessoas, para que elas consigam fazer o mesmo
      No fim, isso parece o único caminho para o todo funcionar, a menos que um dia as empresas migrem para modelos locais menores e viáveis economicamente
    • LLMs apresentam o trabalho de forma cor-de-rosa e plausível, sempre dizendo que podem continuar se você quiser
      A chance de estar certo e a chance de te jogar de um penhasco parecem meio a meio, mas a viagem sempre vem embalada como um hotel 5 estrelas lindíssimo
      Quando você encontra um erro e avisa o LLM, na maioria das vezes piora, porque ele quer agradar, pede desculpas e muda de direção
      Quando isso acontece, normalmente salvo ou cancelo a sessão e recomeço do zero, ou então mudo de rumo sem pena
      Para mim, o Gemini é o LLM mais imprevisível, e, no geral, o GPT é o que funciona melhor
      Recentemente o Gemini me deu duas respostas diferentes para a mesma pergunta. Foi um teste intencional, abrindo um chat novo e colando o mesmo prompt
      Em programação, as capacidades de raciocínio não ajudam tanto. As explicações do LLM são muito de alto nível e parecem formalmente corretas
      Por causa dos LLMs eu acabo googlando mais. No fim, alguém produz algo que eu mesmo tenho que verificar antes de apertar o botão, e só um pouco depois descubro se aquele botão brilhante vai funcionar ou me conduzir ao inferno
  • Se um matemático teve uma longa conversa com um LLM, guiando de forma útil, mas o LLM fez todo o trabalho técnico e todas as ideias principais, considerar isso uma grande realização do matemático é uma escolha cultural
    É natural que isso soe estranho na cultura matemática atual, mas em outras áreas — e para muitas pessoas — já seria possível considerar que houve uma grande realização humana
    Enquanto a colaboração humano-IA produzir os melhores resultados, há contribuição humana significativa, e um especialista profundo e domador habilidoso de LLMs pode contribuir muito
    A verdadeira mudança virá quando a IA pura superar tanto humanos quanto colaborações humano-IA

    • Nas corridas de carro, a maior parte do desempenho vem do carro, mas ainda elogiamos o piloto. Quando dois carros têm desempenho parecido, a habilidade ou o erro do piloto faz diferença. Hipismo é parecido
      Na matemática também, o humano pode conduzir o LLM pelo caminho certo e direcioná-lo a um problema específico ou a outro, então algum crédito merece
      A equipe que construiu o carro, a pessoa que cuidou do cavalo ou a equipe que criou a IA talvez mereçam mais elogios, mas geralmente damos mais atenção à única pessoa mais visível
    • Esse ponto me lembra imagens de IA e comédia
      Se a imagem faz as pessoas rirem, quem digitou o prompt talvez não mereça o grosso do crédito pela produção, mas pode merecer crédito pela ideia inicial e pelo gosto de ter escolhido um resultado específico entre vários rascunhos
      Se um matemático conseguiu um resultado surpreendente que o LLM “fez”, acho que algum crédito cabe pelos prompts e pela condução
      Mas a questão é se essa primeira pessoa talvez não fosse um artista, e sim um comediante — e se esse matemático continua sendo um matemático ou virou outra coisa
    • Mesmo que alguém encontrasse um prompt ou automatizasse uma conversa para vasculhar todos os problemas em aberto da matemática, se isso produzisse resultados úteis e não prejudicasse ninguém, eu consideraria uma atividade humana valiosa e digna de recompensa
      Basta pagar o mesmo que se pagaria a outros matemáticos. Claro, isso significaria muitos matemáticos bilionários, então essa recompensa seria bem grande
    • Talvez não seja uma grande realização de um matemático, mas ainda assim é um grande resultado
  • A frase “se o objetivo de fazer matemática é obter algum tipo de imortalidade, talvez isso não seja mais possível por muito tempo” me pareceu um pouco triste

    • Ontem vi de graça no YouTube o filme ‘21’ (2008)
      A abertura do filme é cheia de estudantes circulando pelo campus do MIT e de toda a promessa e status que o ensino superior traz
      Quando percebi quanta coisa pode ser entregue à IA, senti uma tristeza parecida
      [0] - https://youtu.be/0lsUsWdkk0Y?si=TJl7f_b1RcWcDqF8&t=278
    • Essa frase foi a parte mais interessante do ensaio para mim. Ela me lembrou de quando abandonei de imediato a ideia de carreira acadêmica em matemática: aos 19 ou 20 anos, achei que eu não poderia ser de nível mundial nessa área. E eu estava certo
      A ideia seguinte foi: “Em que eu sou bom?”. E ali dentro havia pelo menos “Em que eu poderia ser de nível mundial?” ou “Em que eu poderia ser muito bom?”
      Nunca achei que fosse suficiente encontrar algum resultado, dar meu nome a ele e sobreviver a mim mesmo o bastante para alcançar imortalidade matemática, mas, se tivesse pensado assim, essa má notícia talvez tivesse me abalado de forma parecida
      Ainda assim, na margem, discordo da premissa. Não importa quantos assistentes de prova ou quantos clusters de computação sejam usados: a equipe ou a pessoa que provar a hipótese de Riemann vai ficar famosa. Pelo menos no mundo da matemática
    • Não sei se isso é tão decepcionante assim. Acho improvável que a maioria dos grandes matemáticos tenha feito isso de fato para alcançar imortalidade
      Provavelmente muitos miravam aplicações práticas indiretas — matemática → física → engenharia — ou faziam isso simplesmente pela beleza da matemática e pelo prazer intelectual
      A IA pode até capturar a parte das aplicações práticas, mas os outros aspectos ainda podem ser aproveitados
    • Dá para repetir a mesma coisa sobre todo tipo de realização humana
  • Como pós-graduando, esse texto me deixou triste. Eu acreditava que meu trabalho diria algo que iria além de mim, além do tempo limitado que me foi dado nesta experiência cósmica
    Esse sentimento de imortalidade era um pequeno bônus intangível que eu esperava ao entrar na pós, mas por causa da IA eu me sinto menos valioso

    • Como alguém que já passou bem mais da metade do caminho, eu diria com cuidado que talvez seja melhor abandonar esse tipo de pensamento. Já vi gente brilhante e ambiciosa demais cair em depressão por causa disso
      Vale a pena fazer esse trabalho porque você pode fazê-lo. Espero que você o faça por amor, e por amor ao mistério
      Espero que consiga desfrutar cada momento em que pode fazer esse trabalho. Ao contrário de quem vive atolado em coisas que não dão satisfação, procure alegria na grande sorte que é poder fazer isso
      Às vezes é entediante, mas às vezes é incrivelmente gratificante por si só
      Só não trabalhe pela possibilidade de glória eterna. Isso já não existe mais
    • Já vale muito. Se você afiar suas habilidades na pós, vai conseguir dirigir essas IAs melhor do que alguém que não passou muito tempo lutando com problemas difíceis
    • “Se você valoriza a inteligência acima de todas as outras qualidades humanas, vai ter tempos difíceis.” - Ilya Sutskever, 2023
    • Há muito mais a aprender nesta realidade do que aquilo que os LLMs conseguem descobrir sozinhos. Isso é ainda mais verdadeiro quando se trata de verdade, ética e moral, e, no fim, quando deixarmos esta realidade, só isso importará
      Não há desafio maior do que esse
    • Tenho a sensação de que a coragem transcende o tempo melhor do que avanços científicos estranhos. Esses avanços em geral são atribuídos a uma única pessoa, mas as raízes muitas vezes vêm de pessoas sem nome, “menos importantes”
  • Como professor assistente de ciência da computação teórica no Leste Europeu, sempre sinto um pouco de inveja ao ver grandes nomes da matemática terem acesso fácil a modelos caros de raciocínio de longa duração
    Com o orçamento acadêmico atual, pagar o Pro aqui está fora da realidade. O orçamento tem uso restrito e quase não há rubricas em que pagamentos de software se encaixem
    Na prática, seria preciso pedir um novo financiamento, torcer para que as regras permitam um grande gasto com software e para não cair com um avaliador anti-IA. Esse processo leva pelo menos 1 ano
    Para piorar, a Microsoft apertou o acesso ao Copilot para uso pessoal e acadêmico, e isso também bloqueou recentemente o acesso ao Claude Opus
    O ChatGPT 5.5 Plus não me pareceu suficiente para mergulhar fundo em novos temas de pesquisa, e eu mesmo testei isso

    • @NotOscarWilde deixe seu e-mail e eu entrarei em contato. Trabalho na OAI e posso providenciar uma conta Pro para você usar o 5.5 Pro por alguns meses
    • Na nossa universidade, até a implantação recente de um serviço compartilhado de IA, todo mundo pagava as assinaturas de IA do próprio bolso
      Levaram 2 anos para configurar esse serviço, e ele oferece só o gpt-oss-120b, então todo mundo continua usando outros serviços
      Mesmo assim, algum administrador agora pode espalhar a palavra “IA” por todo o site da universidade e ganhar uma desculpa para negar pedidos de assinatura, dizendo que “já temos IA”
    • É um caso clássico de quem está na posição mais vantajosa continuar na melhor posição para seguir acumulando recompensas
      Há o exemplo das botas compradas por ricos e pobres. As botas do pobre se desgastam e precisam ser trocadas sempre, enquanto as do rico são de qualidade melhor e duram anos
      Com o tempo, o pobre acaba gastando mais dinheiro com botas
    • O OpenRouter permite só cobrança por token sem assinatura e oferece a maioria dos modelos de ponta, incluindo Opus 4.7 e GPT-5.5
      Se usar com parcimônia, normalmente sai bem barato
    • Pelo que sei, o acesso ao ChatGPT 5.5 Pro custa US$ 100 por mês. Fico curioso se isso é realmente inviável de pagar nessa posição e nessa região
      Mesmo que a universidade não cubra, imagino que você gostaria de pagar isso pelos seus próprios objetivos
      Não estou tentando criticar, só quero saber se esse custo é completamente inacessível para a maioria dos pesquisadores daí
  • Há uns 10 anos, numa reunião conjunta AMS-MAA em Seattle, vi Tim Gowers dar uma palestra em que previu que, em 100 anos, os humanos não fariam mais matemática de pesquisa. Fico curioso se ele revisaria esse cronograma hoje
    Na época, achei que a ferramenta crucial que faltava era uma busca em linguagem natural funcionando como o MathOverflow. Você descreve o problema ou a ideia do jeito que entende, e ela encontra literatura relacionada que esteja fora da sua experiência ou do seu vocabulário

    • Teichmüller também achava que a Alemanha venceria a Segunda Guerra Mundial e se voluntariou para a frente oriental
      Ser um grande matemático não significa estar certo. Na verdade, matemáticos costumam ter teorias bem esquisitas
  • A esmagadora maioria dos estudantes que vai entrar no ensino superior neste outono, mesmo que faça pesquisa, só conseguirá contribuir de forma relevante para a ciência daqui a 4 ou 5 anos. Se pensarmos no momento em que um doutorado realmente engrena, na prática são 6 ou 7 anos
    Olhando para o nível dos modelos de 5 a 7 anos atrás, nem havia no radar algo como uma ameaça existencial ao doutorado. Quem está terminando o doutorado agora é a primeira geração capaz de aproveitar essas ferramentas de verdade
    Agora surgem problemas se estudantes que querem virar pesquisadores desistem por sensação de derrota ou passam a depender totalmente dos modelos de IA para fazer o trabalho
    O mesmo vale para o financiamento de vagas de doutorado. Se o apoio deixar de ser para “formar pesquisadores” e passar a ser para “entregar resultados”, o dinheiro antes destinado a doutorandos pode acabar indo para recursos computacionais
    Vendo de forma cínica, alguns pesquisadores podem gerar muito mais artigos gastando dinheiro com computação do que treinando estudantes por vários anos
    São tempos interessantes, mas a incerteza é grande demais. Dá pena dos estudantes que precisam decidir agora o que fazer

    • Isso já está acontecendo e vai acelerar. Mesmo fora da pós-graduação, já dá para comprar diplomas
      Especialmente em áreas mais brandas, já dá para comprar hoje tese de doutorado e um bom histórico de publicações
      Se você está na indústria em vez da academia, também dá para comprar promoção. Se o empregador dá um orçamento de IA para todos, basta dobrar esse orçamento discretamente com dinheiro do próprio bolso até ser promovido, e depois parar e aproveitar o salário maior
    • Doutorandos já estão usando modelos de IA para fazer o trabalho. A maioria dos doutorandos que conheço tira o máximo de um plano Claude Max de US$ 200 por mês
      Dá para ver que isso permitiu fazer pesquisa que antes não seria possível
      Também dá para ver que usar IA enfraqueceu até certo ponto a capacidade de escrever código manualmente, mas vejo isso como scikit-learn ou Pytorch para montar modelos de machine learning
      Os detalhes de baixo nível ficam abstraídos e sem IA a pessoa talvez não consiga fazer muito, mas essa pesquisa de fato acontece por causa dela, e não teria acontecido só com a IA
    • Não é como se até agora as instituições tivessem esbanjado dinheiro com doutorandos
      Esse dinheiro é mais parecido com uma linha orçamentária acrescentada depois, e não um alvo tão atraente a ponto de ser drenado para algo caro e para outros procedimentos