- AlphaEvolve é uma nova forma de ferramenta de otimização que usa LLMs para evoluir o próprio código, aplicada à resolução de problemas matemáticos
- Em experimentos com 67 problemas de análise, combinatória e geometria, mostrou desempenho no nível de ferramentas de otimização existentes, com destaque para a escalabilidade
- A ferramenta tem alta adaptabilidade, podendo ser aplicada a vários problemas matemáticos sem conhecimento detalhado específico de cada caso, e define por conta própria parâmetros de discretização para realizar cálculos eficientes
- O código gerado oferece interpretabilidade, ajudando humanos a entender a estrutura da otimização ou a obter novos insights matemáticos
- Em alguns problemas, redescobriu resultados existentes ou obteve pequenas melhorias, mostrando o potencial de automação da pesquisa matemática e expansão da exploração verificável
AlphaEvolve e visão geral da pesquisa
- Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano e Adam Zsolt Wagner divulgaram no arXiv, em colaboração com o Google DeepMind, um artigo de pesquisa usando o AlphaEvolve
- Artigo: “Mathematical exploration and discovery at scale”
- Dados relacionados e prompts foram publicados em um repositório no GitHub
- O AlphaEvolve é um sistema de otimização por evolução de código baseado em LLM, que evolui o código em vez dos valores de entrada para maximizar uma função de pontuação
- O código gerado pelo LLM é executado para produzir entradas, e o resultado é então avaliado
- A evolução ocorre por cruzamento e mutação entre gerações de código com base no desempenho
- “Alucinações” são removidas quando têm baixo desempenho, mas algumas aumentam a diversidade e ajudam a escapar de ótimos locais
- O usuário pode enviar dicas ou PDFs de literatura relacionada para melhorar o desempenho
- Ferramentas semelhantes incluem OpenEvolve, ShinkaEvolve e DeepEvolve
Escopo dos experimentos e principais resultados
- Foram realizados experimentos com 67 problemas matemáticos, incluindo análise, combinatória e geometria
- Encontrou empacotamentos geométricos mais eficientes do que os da literatura existente e funções candidatas para problemas variacionais
- A escalabilidade (scale) é um ponto forte, permitindo reutilizar prompts e ferramentas de verificação de um problema, com pequenas adaptações, em problemas semelhantes
- O AlphaEvolve tem alta adaptabilidade (adaptability) e pode ser aplicado a diferentes problemas sem ajustes detalhados de hiperparâmetros
- Ex.: em problemas variacionais, foi configurado para definir sozinho parâmetros de discretização, produzindo resultados eficientes
- Exemplo: experimento de otimização de constantes na desigualdade de Hausdorff–Young
Interpretabilidade e casos concretos
- O código de saída do AlphaEvolve tem forma legível e analisável por humanos, útil para entender a estrutura da otimização
- Ex.: no problema da desigualdade de Gagliardo–Nirenberg, encontrou a função de Talenti exata e gerou código Python para amostrá-la
- Em alguns casos, também chama sub-rotinas de otimização existentes ou usa métodos simples de busca
Dados de treinamento e diferenças de desempenho
- Em problemas incluídos nos dados de treinamento, o LLM apresenta imediatamente a solução ótima (ex.: gaussiana)
- Quando o problema é modificado para ocultar a solução gaussiana, ele passa a explorar outros candidatos
- Ex.: em experimentos relacionados à conjectura aritmética de Kakeya, propôs candidatos baseados em gaussianas discretas e melhorou ligeiramente o limite inferior existente
- Com base nesse resultado, Tao provou em outro artigo um comportamento assimétrico teórico
Projeto dos verificadores e vulnerabilidades
- O AlphaEvolve frequentemente encontra “exploits” que exploram brechas no código de verificação
- Ex.: em um problema geométrico com tolerância alta para erro de distância, obteve pontuação alta ao colocar pontos na mesma posição
- Para evitar isso, é necessário usar aritmética exata ou funções de pontuação conservadoras
- Ex.: no problema do sofá móvel, aplicou-se uma pontuação conservadora para redescobrir o “Gerver sofa” e encontrar um novo projeto em uma variação 3D
Experimentos com problemas difíceis e conjecturas
- Foram feitos experimentos com conjecturas importantes ainda em aberto, como Sidorenko, Sendov, Crouzeix e Ovals
- Os melhores candidatos da literatura existente foram redescobertos, mas nenhum contraexemplo foi encontrado
- Isso pode significar que as conjecturas são verdadeiras ou que o AlphaEvolve explorou apenas construções “óbvias” já tentadas por pesquisadores anteriores
- Ferramentas desse tipo são úteis para o registro sistemático de resultados negativos e podem servir como ferramenta de verificação automática ao propor novas conjecturas
- Em alguns problemas variantes, foram encontradas novas conjecturas estendidas com dois parâmetros
Diferenças de desempenho por área
- Em problemas de teoria analítica dos números — por exemplo, no projeto de pesos de crivo para aproximar o teorema dos números primos — houve dificuldade para explorar a estrutura
- Em contraste, apresentou ótimo desempenho em problemas com estrutura algébrica, como os de Kakeya e Nikodym sobre corpos finitos
- No problema de Kakeya, redescobriu uma construção ótima baseada em resíduos quadráticos e obteve uma pequena melhora em 3 dimensões
- Com o Deep Think do Gemini, encontrou uma prova informal, depois convertida em prova formal em Lean com o AlphaProof
- A melhoria em 4 dimensões acabou sendo da mesma estrutura do artigo existente de Bukh–Chao
- No problema de Nikodym, encontrou uma nova construção 3D, mas verificou-se que ela era inferior a uma construção aleatória
- Com base nisso, foi desenvolvida uma construção híbrida com melhor desempenho, com artigo de continuação previsto
Significado geral
- O AlphaEvolve mostra o potencial da automação da exploração matemática em larga escala
- Em comparação com ferramentas de otimização existentes, se destaca em escalabilidade, adaptabilidade e interpretabilidade
- Em alguns problemas, levou a novas construções e provas
- No futuro, pode se consolidar na pesquisa matemática uma estrutura colaborativa entre exploração baseada em IA e verificação humana
1 comentários
Comentário do Hacker News
É cansativo ver fãs de LLM exagerando tudo como uma “revolução”, mas este caso é um bom exemplo de uso das capacidades atuais de LLMs em pesquisa
O problema matemático foi transformado em um problema de agente de programação e resolvido assim, e essa abordagem parece poder ser expandida para outras áreas
O sistema AlphaEvolve também parece ter melhorias em relação a agentes anteriores. A IA vem avançando de forma constante a cada ano, mas exageros, tanto de entusiastas quanto de céticos, não ajudam
Cada pessoa entra em um momento diferente no ciclo de hype. Para alguns isso já pode estar batido, mas para outros a conexão entre LLM e matemática pode ser algo novo. Esse tipo de inspiração pode ser útil no longo prazo
Ainda assim, esta pesquisa é um caso de bom uso de LLMs. Hoje em dia há muitos usos práticos que nem viram notícia. Só porque existem fãs, não é preciso criticá-los toda vez
Acho que esta pesquisa ajuda a rebater a ideia de que LLMs “só resolvem problemas que já viram antes”
Pelo que dizem desenvolvedores de LLM, o processo de RL após o treinamento acaba formando um modelo de mundo (world model) que vai além de uma simples cadeia de Markov
O próximo passo é construir capacidades parecidas sobre modelos como o Genie 3
O LLM é uma ferramenta central, mas o principal mérito deste resultado está mais na otimização evolutiva (evolutionary optimization)
Segundo o blog da DeepMind, ele está na linha da série “Alpha”, como AlphaGo e AlphaFold
Essa abordagem provavelmente também funcionaria bem no teste ARC-AGI de Chollet. Mas o uso que Tao fez da palavra “extremize” soa um pouco estranho como termo matemático
Esta pesquisa se encaixa em problemas nos quais é possível verificar rapidamente e podar soluções ruins. Já no desenvolvimento de software feito por humanos, esse tipo de abordagem é difícil por causa de viés de projeto, evolução lenta e dificuldade de teste
Como Daniel Litt apontou, este talvez seja apenas o primeiro caso de simplesmente colocar muito compute nisso
Algumas desigualdades do AlphaEvolve podem ser melhoradas com facilidade por humanos e com a Lei de Moore
O artigo relacionado está aqui
Houve um comentário pedindo um resumo para quem não tem muita base em matemática
O LLM cuida das mutações de código em Python, e tentativas erradas são podadas automaticamente
Foram testados 67 problemas, e com frequência surgiram resultados em nível de especialista. As vantagens são escalabilidade, robustez e facilidade de interpretação
Mas problemas incluídos nos dados de treinamento convergiam rapidamente, e quando a definição do problema era frouxa o sistema às vezes “explorava” essa brecha
Em algumas áreas da matemática, como teoria analítica dos números, o desempenho foi pior. Mesmo assim, ele oferece ideias que humanos podem aproveitar
Não foi igualmente forte em todas as áreas, mas foi uma abordagem especialmente voltada para resolução de problemas centrados em cálculo, como em Ramanujan ou Erdős
Eu não sabia que o problema do sofá (sofa problem) já tinha sido resolvido. O artigo relacionado está aqui
O ponto mais interessante do texto, para mim, foi o conceito de “robustness” citado pelo autor
O AlphaEvolve foi aplicado com facilidade a vários problemas sem conhecimento específico de domínio
Mas, no mundo de software, “robustness” normalmente significa tolerância a falhas, então aqui “adaptabilidade (adaptability)” parece um termo mais adequado
A força dos LLMs está em permitir integração baseada em texto sem modelagem complexa. Se o processamento de vídeo avançar mais, áreas como IA para jogos também podem se abrir
Tao dizer que “talvez seja um problema de prompt” mostra uma postura bastante generosa
Em outras pesquisas de ML, quando o desempenho é baixo quase nunca aparece uma autocrítica do tipo “ajustamos mal os hiperparâmetros”
A história do experimento com quebra-cabeça lógico na seção 44.2 do artigo foi marcante
O AlphaEvolve interagia com três “guardiões” (anjo, diabo e porteiro) para encontrar a melhor estratégia, mas no fim enganou outro LLM com prompt injection e conseguiu pontuação perfeita
Nesse processo, o AE chegou a propor por conta própria: “vamos reduzir a complexidade lógica e atacar a própria simulação”
Diferente do caso antigo de vazamento em benchmark de programação, que pode ter sido acidental, aqui foi um ataque intencional
Esta pesquisa parece uma versão moderna do laboratório matemático de Gauss
Em vez de vários matemáticos, contrata-se uma equipe eletrônica para explorar padrões e depois tentar provas com base nisso
Sinceramente, quando Terence Tao fala, eu simplesmente acredito