AlphaEvolve: o agente de programação baseado no Gemini que expande seu impacto para várias áreas
(deepmind.google)- AlphaEvolve é um agente de programação baseado no Gemini que começou com o design de algoritmos avançados e ampliou seu alcance para problemas abertos em matemática e ciência da computação, otimização da infraestrutura do Google e desafios científicos e industriais
- Em genômica, melhorou o DeepConsensus e reduziu os erros de detecção de variantes em 30%; em redes elétricas, ajudou a elevar a taxa de descoberta de soluções viáveis para o problema de AC Optimal Power Flow de 14% para mais de 88%
- Em ciências da Terra, automatizou a otimização do modelo Earth AI e aumentou em 5% a precisão geral da previsão de risco de desastres naturais em 20 categorias, como incêndios florestais, enchentes e tornados; em física quântica, propôs circuitos quânticos com erro 10 vezes menor que a linha de base anterior no Willow quantum processor
- Em matemática, contribuiu com Terence Tao para resolver um problema de Erdős, melhorou limites inferiores para o Traveling Salesman Problem e Ramsey Numbers, e também foi usado em modelos interpretáveis de neurociência, microeconomia, criptografia, dados sintéticos e mitigação de segurança em IA
- Na infraestrutura do Google, foi aplicado ao design da próxima geração de TPU, políticas de substituição de cache, heurísticas de compactação de LSM-tree no Google Spanner e otimização de compiladores; em aplicações comerciais, alcançou 2x de velocidade de treinamento na Klarna, 10,4% de melhoria na eficiência de rotas na FM Logistic e cerca de 4x de ganho de velocidade em treinamento e inferência de MLFF na Schrödinger
Impacto social e sustentabilidade
-
Genômica
- O AlphaEvolve foi usado para melhorar o DeepConsensus, um modelo de correção de erros em sequenciamento de DNA desenvolvido pelo Google Research, reduzindo os erros de detecção de variantes em 30%
- Essa melhoria ajuda cientistas da PacBio a analisar dados genéticos com mais precisão e menor custo
- Aaron Wenger, da PacBio, afirmou que a solução descoberta pelo AlphaEvolve aumenta de forma significativa a precisão dos equipamentos de sequenciamento e pode permitir que pesquisadores encontrem mutações causadoras de doenças antes ocultas, com dados de qualidade superior
-
Otimização de redes elétricas
- O AlphaEvolve foi aplicado ao AC Optimal Power Flow problem
- O modelo treinado de Graph Neural Network (GNN) ajudou a elevar a taxa de descoberta de soluções viáveis para esse problema de 14% para mais de 88%
- Como resultado, a necessidade de etapas de pós-processamento caras nas redes elétricas foi bastante reduzida
-
Ciências da Terra
- O AlphaEvolve foi usado para transformar dados geoespaciais complexos em insights mais confiáveis e acionáveis
- Ao automatizar a otimização do modelo Earth AI, aumentou em 5% a precisão geral da previsão de risco de desastres naturais, agregando 20 categorias, como incêndios florestais, enchentes e tornados
Avanços na fronteira da pesquisa
-
Física quântica
- As otimizações do AlphaEvolve permitem executar simulações moleculares complexas no Willow quantum processor do Google
- Ao propor circuitos quânticos com erro 10 vezes menor do que a linha de base convencional de otimização, contribuiu imediatamente para a primeira demonstração experimental desse tipo de computação quântica
- Esse resultado mostra que o AlphaEvolve pode levar a um futuro em que encontre algoritmos que vão além da capacidade dos computadores clássicos
-
Matemática
- O AlphaEvolve contribuiu com matemáticos como Terence Tao para resolver um problema de Erdős
- Terence Tao afirmou que ferramentas como o AlphaEvolve melhoram muito a intuição, especialmente em problemas de otimização, ao testar rapidamente contraexemplos de desigualdades potenciais ou confirmar crenças sobre objetos extremos, facilitando a descoberta de provas rigorosas
- O AlphaEvolve bateu recordes ao melhorar limites inferiores em desafios matemáticos clássicos como o Traveling Salesman Problem e Ramsey Numbers
-
Outras áreas de pesquisa
- A capacidade de descoberta autônoma do AlphaEvolve está impulsionando inovações paralelas em várias áreas
- Foi usado na descoberta de modelos interpretáveis de neurociência, na prova de novos limites de mercado em microeconomia e no avanço de componentes de redes neurais
- Também foi aplicado à criptografia para privacidade do usuário, geração de dados sintéticos e mitigações centrais de segurança para modelos de IA de fronteira
- Um exemplo de otimização de uma instância do Tammes problem pelo AlphaEvolve e soluções potenciais para problemas adicionais podem ser vistos na Gallery pública e nesta otimização
Melhoria da infraestrutura de IA
- O AlphaEvolve foi além dos testes-piloto e se tornou um componente central da infraestrutura do Google
- É usado como ferramenta regular para otimizar o design da próxima geração de TPU
- Descobriu políticas de substituição de cache mais eficientes, alcançando em apenas dois dias um trabalho que antes exigia meses de esforço humano intensivo
- Jeff Dean afirmou que o AlphaEvolve começou a otimizar o nível mais baixo do hardware que sustenta a stack de IA, propondo designs de circuitos eficientes embora contraintuitivos, que foram integrados diretamente ao silício da próxima geração de TPU
- O AlphaEvolve também melhorou as heurísticas de compactação de Log-Structured Merge-tree no Google Spanner, aumentando a eficiência
- Essa otimização reduziu em 20% a amplificação de escrita (write amplification), que é a proporção de dados gravados em armazenamento em relação ao volume originalmente solicitado
- O AlphaEvolve também forneceu insights para uma nova estratégia de otimização de compiladores que reduziu em quase 9% o uso de espaço de armazenamento do software
Expansão das aplicações comerciais
- Com o Google Cloud, o AlphaEvolve está sendo oferecido a empresas comerciais em vários setores
- No setor de serviços financeiros, a Klarna usou o AlphaEvolve para otimizar um de seus grandes modelos transformer, dobrando a velocidade de treinamento e melhorando a qualidade do modelo
- Na fabricação de semicondutores, a Substrate aplicou o AlphaEvolve ao seu framework de litografia computacional, multiplicando a velocidade de execução e permitindo simulações avançadas de semicondutores em escala maior
- Em logística, a FM Logistic otimizou problemas complexos de rotas como o Traveling Salesman Problem e melhorou a eficiência das rotas em 10,4% em relação a soluções antes fortemente otimizadas, economizando mais de 15.000 km por ano em deslocamentos
- Em publicidade e marketing, a WPP usou o AlphaEvolve para refinar componentes de modelos de IA e lidar com dados complexos de campanhas de alta dimensionalidade, elevando a precisão em 10% em comparação com uma otimização manual competitiva
- Em materiais computacionais e ciências da vida, a Schrödinger aplicou o AlphaEvolve e alcançou cerca de 4x de ganho de velocidade tanto no treinamento quanto na inferência de Machine Learned Force Fields (MLFF)
- Gabriel Marques, da Schrödinger, afirmou que uma inferência de MLFF mais rápida reduz os ciclos de P&D em descoberta de medicamentos, design de catalisadores e desenvolvimento de materiais, gerando impacto real nos negócios ao permitir que empresas selecionem candidatos moleculares em dias, e não em meses
Próximos passos
- No último ano, o AlphaEvolve se consolidou rapidamente como um sistema geral de múltiplos propósitos
- Ele mostra que o próximo grande avanço pode ser liderado por algoritmos capazes de aprender, evoluir e se otimizar por conta própria
- O Google DeepMind pretende expandir as capacidades do AlphaEvolve e aplicá-lo a desafios externos mais amplos
1 comentários
Opiniões do Hacker News
Isso me lembra o "Don't fall into the anti-AI hype" do Antirez [0]
Resumindo em uma linha: esses modelos de base são realmente fortes para otimizar espaços de problema muito bem definidos e de altíssimo nível, como “faça multiplicação de matrizes mais rápido”. No caso do Antirez, era “faça o Redis ficar mais rápido”
As reações se dividiram entre “isso nunca vai funcionar no meu trabalho” e “terminou em uma hora algo que levaria meses”, e acho que os dois lados estão certos. É bom ver o Antirez continuando a ter resultados [1], mas acho razoável dizer que a maior parte do trabalho das pessoas, cheio de conhecimento tácito, centrado em sistemas humanos e definido de forma ambígua, é difícil para LLMs lidarem ou talvez nem seja para isso que eles servem
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
Em breve, todas as reuniões serão gravadas e transcritas, e armazenadas em algum lugar bem indexado onde um agente possa pesquisar quando encontrar ambiguidade. Se ele já consegue perguntar agora, então em um ambiente assim também poderá buscar a resposta por conta própria. Na verdade, se você já tem um Notion/Confluence bem documentado, ele já faz isso; o problema é que quase nenhuma organização está nesse nível
Reforçar por aprendizado por reforço a capacidade de “identificar ambiguidade” será mais difícil do que reforçar algoritmos de desempenho, mas não é impossível, e acredito que isso já está em andamento. Agora é questão de tempo
Eles são fracos para inventar novos algoritmos fora do comum e frequentemente enfiam atalhos absurdamente imediatistas. Por enquanto ainda são ferramentas, não artesãos habilidosos no uso de ferramentas. Isso vai mudar aos poucos, e também deve diminuir o espaço em que algoritmos raros levam vantagem
É muito difícil julgar qual dos dois lados vence na média
CEOs de IA adoram discursar dizendo que a IA vai curar o câncer, mas o único lugar que parece estar realmente focado de forma ativa nesses problemas de pesquisa é o DeepMind
OpenAI e Anthropic parecem estar mais correndo atrás de receita corporativa e receita com programação
Quem trabalha no Google está satisfeito em usar agentes de programação Gemini em vez de Claude Code ou Codex? Não estou sendo sarcástico, estou realmente curioso
Ainda há partes de UI/UX/ferramentas sendo organizadas, integração com sistemas de controle de versão e problemas mais profundos difíceis de comentar, mas acho que a maior parte das reclamações tem mais a ver com a velocidade da mudança do que com a capacidade real
O interessante é que várias pessoas influentes internamente dizem com convicção que preferem o modelo Flash ao modelo Pro. Independentemente de isso ser verdade, é interessante que chegamos a um ponto em que o modelo “melhor” nem sempre é o mais útil, e combinar um modelo mais rápido com melhorias no harness pode ser um compromisso melhor
Há timeouts constantes, modos de falha estranhos e o problema de ter que iniciar um novo chat para trocar de modo. Mas isso parece ser mais um problema da extensão do que do próprio modelo Gemini
Tirando a parte da extensão do VS Code e olhando só para resolver problemas reais, os três modelos premium são excelentes agentes de programação para o meu uso
O Gemini pode não ser o melhor agente de programação, mas pode ser muito bom em outras coisas
Eles esquecem completamente como chamar ferramentas, desperdiçam muito tempo e acabam desistindo, ou então ignoram totalmente diretrizes de estilo de código em arquivos parecidos com AGENTS.md
Minha experiência rodando Gemma 4 localmente foi parecida. Depois de uma ou duas chamadas de ferramenta, ele começava a chamá-las do jeito que queria. Ontem mesmo vi redefinir uma ferramenta como
read_file(start, number_of_bytes)em vez deread_file(start, end), sem sequer admitir a possibilidade de estar erradoSe a IA estiver melhorando por conta própria, ou pelo menos a arquitetura em que ela roda, então a singularidade está próxima, no sentido em que as pessoas costumam dizer
Fora geração de dados sintéticos ou testes de modelo, há outros casos em que IA foi usada para melhorar LLMs?
Um transformer mais eficiente só reduz o custo de execução
Para dizer “a IA melhora a IA”, uma geração de IA teria que projetar uma próxima geração fundamentalmente mais capaz do que ela mesma. Não apenas mais rápida ou mais barata, mas algo no nível de um cérebro reptiliano projetando autonomamente um cérebro mamífero
Mesmo conectado a um harness inteligente como o AlphaEvolve, não vejo LLMs tendo esse tipo de criatividade. A exceção seria se a arquitetura da próxima geração estivesse claramente escondida como uma combinação de peças que LLMs possam ser levados a prever
O caminho mais provável é que, depois de mais alguns passos de inovação humana rumo à AGI, surja uma IA capaz de inovação autônoma, e não apenas de geração combinatória orientada por prompt
Não poderia haver restrições fortes o bastante para tornar a singularidade impossível, ou um horizonte de tempo tão longo que não seja prático?
Todos os grandes laboratórios de IA estão tocando projetos grandes de agentes de pesquisa, especialmente agentes voltados para melhorar IA, e espero que muitos deles saiam da fase experimental ainda este ano
No ano que vem eles de fato vão fazer bastante coisa, e acho que veremos a primeira grande mudança arquitetural válida cocriada por IA
Quantas vezes ainda vamos ouvir falar do problema de Erdős? :) No começo soa como uma grande conquista da humanidade, mas com o tempo isso sempre volta
Enquanto isso, o Gemini CLI está quebrado há meses
https://github.com/google-gemini/gemini-cli/issues/22141
Eu queria que o Google se concentrasse em lançar oficialmente os modelos Gemini 3.x e fornecesse capacidade suficiente para que a gente não precisasse continuar brigando com erros 429
Muitas vezes parece que eles não querem que se desenvolvam aplicações para clientes corporativos usando a Vertex API. É uma pena, considerando como o modelo foi realmente excelente em análise de documentos e coisas do tipo
Todos os artigos *Evolve têm resultados muito impressionantes, mas olhando as informações publicadas, fiquei com a sensação de que a atenção vai toda para o lado de LLM e IA
Só que os resultados relatados quase sempre vêm de ambientes extremamente bem projetados para fazer LLMs e algoritmos evolutivos funcionarem bem
Este artigo é um bom exemplo disso e vale a leitura
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
É uma solução incrivelmente simples para melhorar algoritmos. Eu teria adorado ter algo assim alguns anos atrás, quando trabalhava com engenharia de ativações: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
Como dá para acessar o AlphaEvolve?
O problema que senti com Claude é simples: ele infla demais o código e os artefatos até em tarefas simples, e às vezes nem funciona
O Gemini acerta bem esse equilíbrio, entregando uma solução funcional com só o código necessário e complexidade mínima, o que facilita a manutenção
Hoje em dia só recorro ao Claude para código de frontend, especialmente HTML. Mesmo aí ele gera CSS demais, a ponto de ocupar algo como 60% do tamanho do arquivo, mas ainda passa uma sensação um pouco mais polida, então acabo aceitando o aumento no tamanho do arquivo