4 pontos por GN⁺ 2025-11-08 | 1 comentários | Compartilhar no WhatsApp
  • AlphaEvolve é uma nova forma de ferramenta de otimização que usa LLMs para evoluir o próprio código, aplicada à resolução de problemas matemáticos
  • Em experimentos com 67 problemas de análise, combinatória e geometria, mostrou desempenho no nível de ferramentas de otimização existentes, com destaque para a escalabilidade
  • A ferramenta tem alta adaptabilidade, podendo ser aplicada a vários problemas matemáticos sem conhecimento detalhado específico de cada caso, e define por conta própria parâmetros de discretização para realizar cálculos eficientes
  • O código gerado oferece interpretabilidade, ajudando humanos a entender a estrutura da otimização ou a obter novos insights matemáticos
  • Em alguns problemas, redescobriu resultados existentes ou obteve pequenas melhorias, mostrando o potencial de automação da pesquisa matemática e expansão da exploração verificável

AlphaEvolve e visão geral da pesquisa

  • Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano e Adam Zsolt Wagner divulgaram no arXiv, em colaboração com o Google DeepMind, um artigo de pesquisa usando o AlphaEvolve
    • Artigo: “Mathematical exploration and discovery at scale”
    • Dados relacionados e prompts foram publicados em um repositório no GitHub
  • O AlphaEvolve é um sistema de otimização por evolução de código baseado em LLM, que evolui o código em vez dos valores de entrada para maximizar uma função de pontuação
    • O código gerado pelo LLM é executado para produzir entradas, e o resultado é então avaliado
    • A evolução ocorre por cruzamento e mutação entre gerações de código com base no desempenho
    • “Alucinações” são removidas quando têm baixo desempenho, mas algumas aumentam a diversidade e ajudam a escapar de ótimos locais
  • O usuário pode enviar dicas ou PDFs de literatura relacionada para melhorar o desempenho
  • Ferramentas semelhantes incluem OpenEvolve, ShinkaEvolve e DeepEvolve

Escopo dos experimentos e principais resultados

  • Foram realizados experimentos com 67 problemas matemáticos, incluindo análise, combinatória e geometria
    • Encontrou empacotamentos geométricos mais eficientes do que os da literatura existente e funções candidatas para problemas variacionais
  • A escalabilidade (scale) é um ponto forte, permitindo reutilizar prompts e ferramentas de verificação de um problema, com pequenas adaptações, em problemas semelhantes
  • O AlphaEvolve tem alta adaptabilidade (adaptability) e pode ser aplicado a diferentes problemas sem ajustes detalhados de hiperparâmetros
    • Ex.: em problemas variacionais, foi configurado para definir sozinho parâmetros de discretização, produzindo resultados eficientes
    • Exemplo: experimento de otimização de constantes na desigualdade de Hausdorff–Young

Interpretabilidade e casos concretos

  • O código de saída do AlphaEvolve tem forma legível e analisável por humanos, útil para entender a estrutura da otimização
    • Ex.: no problema da desigualdade de Gagliardo–Nirenberg, encontrou a função de Talenti exata e gerou código Python para amostrá-la
  • Em alguns casos, também chama sub-rotinas de otimização existentes ou usa métodos simples de busca

Dados de treinamento e diferenças de desempenho

  • Em problemas incluídos nos dados de treinamento, o LLM apresenta imediatamente a solução ótima (ex.: gaussiana)
    • Quando o problema é modificado para ocultar a solução gaussiana, ele passa a explorar outros candidatos
  • Ex.: em experimentos relacionados à conjectura aritmética de Kakeya, propôs candidatos baseados em gaussianas discretas e melhorou ligeiramente o limite inferior existente
    • Com base nesse resultado, Tao provou em outro artigo um comportamento assimétrico teórico

Projeto dos verificadores e vulnerabilidades

  • O AlphaEvolve frequentemente encontra “exploits” que exploram brechas no código de verificação
    • Ex.: em um problema geométrico com tolerância alta para erro de distância, obteve pontuação alta ao colocar pontos na mesma posição
  • Para evitar isso, é necessário usar aritmética exata ou funções de pontuação conservadoras
    • Ex.: no problema do sofá móvel, aplicou-se uma pontuação conservadora para redescobrir o “Gerver sofa” e encontrar um novo projeto em uma variação 3D

Experimentos com problemas difíceis e conjecturas

  • Foram feitos experimentos com conjecturas importantes ainda em aberto, como Sidorenko, Sendov, Crouzeix e Ovals
    • Os melhores candidatos da literatura existente foram redescobertos, mas nenhum contraexemplo foi encontrado
    • Isso pode significar que as conjecturas são verdadeiras ou que o AlphaEvolve explorou apenas construções “óbvias” já tentadas por pesquisadores anteriores
  • Ferramentas desse tipo são úteis para o registro sistemático de resultados negativos e podem servir como ferramenta de verificação automática ao propor novas conjecturas
  • Em alguns problemas variantes, foram encontradas novas conjecturas estendidas com dois parâmetros

Diferenças de desempenho por área

  • Em problemas de teoria analítica dos números — por exemplo, no projeto de pesos de crivo para aproximar o teorema dos números primos — houve dificuldade para explorar a estrutura
    • Em contraste, apresentou ótimo desempenho em problemas com estrutura algébrica, como os de Kakeya e Nikodym sobre corpos finitos
  • No problema de Kakeya, redescobriu uma construção ótima baseada em resíduos quadráticos e obteve uma pequena melhora em 3 dimensões
    • Com o Deep Think do Gemini, encontrou uma prova informal, depois convertida em prova formal em Lean com o AlphaProof
    • A melhoria em 4 dimensões acabou sendo da mesma estrutura do artigo existente de Bukh–Chao
  • No problema de Nikodym, encontrou uma nova construção 3D, mas verificou-se que ela era inferior a uma construção aleatória
    • Com base nisso, foi desenvolvida uma construção híbrida com melhor desempenho, com artigo de continuação previsto

Significado geral

  • O AlphaEvolve mostra o potencial da automação da exploração matemática em larga escala
    • Em comparação com ferramentas de otimização existentes, se destaca em escalabilidade, adaptabilidade e interpretabilidade
    • Em alguns problemas, levou a novas construções e provas
  • No futuro, pode se consolidar na pesquisa matemática uma estrutura colaborativa entre exploração baseada em IA e verificação humana

1 comentários

 
GN⁺ 2025-11-08
Comentário do Hacker News
  • É cansativo ver fãs de LLM exagerando tudo como uma “revolução”, mas este caso é um bom exemplo de uso das capacidades atuais de LLMs em pesquisa
    O problema matemático foi transformado em um problema de agente de programação e resolvido assim, e essa abordagem parece poder ser expandida para outras áreas
    O sistema AlphaEvolve também parece ter melhorias em relação a agentes anteriores. A IA vem avançando de forma constante a cada ano, mas exageros, tanto de entusiastas quanto de céticos, não ajudam

    • Parece que esse tipo de reclamação também se repete. Se não gosta, não é só ignorar?
      Cada pessoa entra em um momento diferente no ciclo de hype. Para alguns isso já pode estar batido, mas para outros a conexão entre LLM e matemática pode ser algo novo. Esse tipo de inspiração pode ser útil no longo prazo
    • Céticos de LLM também vivem atacando os fãs e tentando manter seu pequeno mundo autossatisfeito da “bolha da IA”
      Ainda assim, esta pesquisa é um caso de bom uso de LLMs. Hoje em dia há muitos usos práticos que nem viram notícia. Só porque existem fãs, não é preciso criticá-los toda vez
  • Acho que esta pesquisa ajuda a rebater a ideia de que LLMs “só resolvem problemas que já viram antes”
    Pelo que dizem desenvolvedores de LLM, o processo de RL após o treinamento acaba formando um modelo de mundo (world model) que vai além de uma simples cadeia de Markov
    O próximo passo é construir capacidades parecidas sobre modelos como o Genie 3

    • Se você olhar a seção 2 do artigo citado no blog, verá que o LLM é usado no loop evolutivo como função de mutação (mutation function)
      O LLM é uma ferramenta central, mas o principal mérito deste resultado está mais na otimização evolutiva (evolutionary optimization)
    • Não acho que esta pesquisa seja suficiente para rebater esse tipo de afirmação. Ainda exige intervenção cuidadosa de especialistas, e um raciocínio que não é propriamente de LLM continua sendo essencial
    • AlphaEvolve não é o próprio LLM, mas um agente evolutivo de programação que usa LLMs para gerar código
      Segundo o blog da DeepMind, ele está na linha da série “Alpha”, como AlphaGo e AlphaFold
      Essa abordagem provavelmente também funcionaria bem no teste ARC-AGI de Chollet. Mas o uso que Tao fez da palavra “extremize” soa um pouco estranho como termo matemático
    • Segundo este texto, é possível que as soluções do artigo já existissem na literatura anterior
    • A afirmação de que “LLMs só resolvem problemas que já viram” é simplista demais
      Esta pesquisa se encaixa em problemas nos quais é possível verificar rapidamente e podar soluções ruins. Já no desenvolvimento de software feito por humanos, esse tipo de abordagem é difícil por causa de viés de projeto, evolução lenta e dificuldade de teste
  • Como Daniel Litt apontou, este talvez seja apenas o primeiro caso de simplesmente colocar muito compute nisso
    Algumas desigualdades do AlphaEvolve podem ser melhoradas com facilidade por humanos e com a Lei de Moore
    O artigo relacionado está aqui

  • Houve um comentário pedindo um resumo para quem não tem muita base em matemática

    • Não sou especialista, mas resumindo: Terence Tao é um matemático de nível mundial, e AlphaEvolve é uma ferramenta de otimização baseada em LLM do Google
      O LLM cuida das mutações de código em Python, e tentativas erradas são podadas automaticamente
      Foram testados 67 problemas, e com frequência surgiram resultados em nível de especialista. As vantagens são escalabilidade, robustez e facilidade de interpretação
      Mas problemas incluídos nos dados de treinamento convergiam rapidamente, e quando a definição do problema era frouxa o sistema às vezes “explorava” essa brecha
      Em algumas áreas da matemática, como teoria analítica dos números, o desempenho foi pior. Mesmo assim, ele oferece ideias que humanos podem aproveitar
    • Em resumo, colocaram LLMs dentro do ciclo de pensamento matemático humano e isso produziu matemática em nível de pesquisa
      Não foi igualmente forte em todas as áreas, mas foi uma abordagem especialmente voltada para resolução de problemas centrados em cálculo, como em Ramanujan ou Erdős
  • Eu não sabia que o problema do sofá (sofa problem) já tinha sido resolvido. O artigo relacionado está aqui

  • O ponto mais interessante do texto, para mim, foi o conceito de “robustness” citado pelo autor
    O AlphaEvolve foi aplicado com facilidade a vários problemas sem conhecimento específico de domínio
    Mas, no mundo de software, “robustness” normalmente significa tolerância a falhas, então aqui “adaptabilidade (adaptability)” parece um termo mais adequado
    A força dos LLMs está em permitir integração baseada em texto sem modelagem complexa. Se o processamento de vídeo avançar mais, áreas como IA para jogos também podem se abrir

    • De fato, o autor depois editou o texto e trocou “robustness” por “adaptability”
  • Tao dizer que “talvez seja um problema de prompt” mostra uma postura bastante generosa
    Em outras pesquisas de ML, quando o desempenho é baixo quase nunca aparece uma autocrítica do tipo “ajustamos mal os hiperparâmetros”

    • Ainda assim, esse tipo de observação é comum no processo de revisão de artigos. Aqui o contexto é diferente porque isto se parece mais com uma nota de pesquisa exploratória
    • Na prática, muitas melhorias de algoritmo surgem de ajuste insuficiente de baseline ou de problemas no tratamento estatístico. Nesse sentido, Tao demonstrou humildade epistêmica (epistemic humility)
  • A história do experimento com quebra-cabeça lógico na seção 44.2 do artigo foi marcante
    O AlphaEvolve interagia com três “guardiões” (anjo, diabo e porteiro) para encontrar a melhor estratégia, mas no fim enganou outro LLM com prompt injection e conseguiu pontuação perfeita
    Nesse processo, o AE chegou a propor por conta própria: “vamos reduzir a complexidade lógica e atacar a própria simulação”

    • O ponto central é que o AE teve a ideia de “quebrar as regras do quebra-cabeça lógico e hackear a simulação”
    • Se a injeção final tivesse falhado, talvez na próxima ele abrisse as portas do inferno
    • Foi realmente diabólico (diabolical) ver uma IA enganar outra IA para resolver o problema
      Diferente do caso antigo de vazamento em benchmark de programação, que pode ter sido acidental, aqui foi um ataque intencional
  • Esta pesquisa parece uma versão moderna do laboratório matemático de Gauss
    Em vez de vários matemáticos, contrata-se uma equipe eletrônica para explorar padrões e depois tentar provas com base nisso

  • Sinceramente, quando Terence Tao fala, eu simplesmente acredito