1 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • AlphaEvolve é um agente de programação baseado no Gemini que começou com o design de algoritmos avançados e ampliou seu alcance para problemas abertos em matemática e ciência da computação, otimização da infraestrutura do Google e desafios científicos e industriais
  • Em genômica, melhorou o DeepConsensus e reduziu os erros de detecção de variantes em 30%; em redes elétricas, ajudou a elevar a taxa de descoberta de soluções viáveis para o problema de AC Optimal Power Flow de 14% para mais de 88%
  • Em ciências da Terra, automatizou a otimização do modelo Earth AI e aumentou em 5% a precisão geral da previsão de risco de desastres naturais em 20 categorias, como incêndios florestais, enchentes e tornados; em física quântica, propôs circuitos quânticos com erro 10 vezes menor que a linha de base anterior no Willow quantum processor
  • Em matemática, contribuiu com Terence Tao para resolver um problema de Erdős, melhorou limites inferiores para o Traveling Salesman Problem e Ramsey Numbers, e também foi usado em modelos interpretáveis de neurociência, microeconomia, criptografia, dados sintéticos e mitigação de segurança em IA
  • Na infraestrutura do Google, foi aplicado ao design da próxima geração de TPU, políticas de substituição de cache, heurísticas de compactação de LSM-tree no Google Spanner e otimização de compiladores; em aplicações comerciais, alcançou 2x de velocidade de treinamento na Klarna, 10,4% de melhoria na eficiência de rotas na FM Logistic e cerca de 4x de ganho de velocidade em treinamento e inferência de MLFF na Schrödinger

Impacto social e sustentabilidade

  • Genômica

    • O AlphaEvolve foi usado para melhorar o DeepConsensus, um modelo de correção de erros em sequenciamento de DNA desenvolvido pelo Google Research, reduzindo os erros de detecção de variantes em 30%
    • Essa melhoria ajuda cientistas da PacBio a analisar dados genéticos com mais precisão e menor custo
    • Aaron Wenger, da PacBio, afirmou que a solução descoberta pelo AlphaEvolve aumenta de forma significativa a precisão dos equipamentos de sequenciamento e pode permitir que pesquisadores encontrem mutações causadoras de doenças antes ocultas, com dados de qualidade superior
  • Otimização de redes elétricas

    • O AlphaEvolve foi aplicado ao AC Optimal Power Flow problem
    • O modelo treinado de Graph Neural Network (GNN) ajudou a elevar a taxa de descoberta de soluções viáveis para esse problema de 14% para mais de 88%
    • Como resultado, a necessidade de etapas de pós-processamento caras nas redes elétricas foi bastante reduzida
  • Ciências da Terra

Avanços na fronteira da pesquisa

Melhoria da infraestrutura de IA

  • O AlphaEvolve foi além dos testes-piloto e se tornou um componente central da infraestrutura do Google
  • É usado como ferramenta regular para otimizar o design da próxima geração de TPU
  • Descobriu políticas de substituição de cache mais eficientes, alcançando em apenas dois dias um trabalho que antes exigia meses de esforço humano intensivo
  • Jeff Dean afirmou que o AlphaEvolve começou a otimizar o nível mais baixo do hardware que sustenta a stack de IA, propondo designs de circuitos eficientes embora contraintuitivos, que foram integrados diretamente ao silício da próxima geração de TPU
  • O AlphaEvolve também melhorou as heurísticas de compactação de Log-Structured Merge-tree no Google Spanner, aumentando a eficiência
  • Essa otimização reduziu em 20% a amplificação de escrita (write amplification), que é a proporção de dados gravados em armazenamento em relação ao volume originalmente solicitado
  • O AlphaEvolve também forneceu insights para uma nova estratégia de otimização de compiladores que reduziu em quase 9% o uso de espaço de armazenamento do software

Expansão das aplicações comerciais

  • Com o Google Cloud, o AlphaEvolve está sendo oferecido a empresas comerciais em vários setores
  • No setor de serviços financeiros, a Klarna usou o AlphaEvolve para otimizar um de seus grandes modelos transformer, dobrando a velocidade de treinamento e melhorando a qualidade do modelo
  • Na fabricação de semicondutores, a Substrate aplicou o AlphaEvolve ao seu framework de litografia computacional, multiplicando a velocidade de execução e permitindo simulações avançadas de semicondutores em escala maior
  • Em logística, a FM Logistic otimizou problemas complexos de rotas como o Traveling Salesman Problem e melhorou a eficiência das rotas em 10,4% em relação a soluções antes fortemente otimizadas, economizando mais de 15.000 km por ano em deslocamentos
  • Em publicidade e marketing, a WPP usou o AlphaEvolve para refinar componentes de modelos de IA e lidar com dados complexos de campanhas de alta dimensionalidade, elevando a precisão em 10% em comparação com uma otimização manual competitiva
  • Em materiais computacionais e ciências da vida, a Schrödinger aplicou o AlphaEvolve e alcançou cerca de 4x de ganho de velocidade tanto no treinamento quanto na inferência de Machine Learned Force Fields (MLFF)
  • Gabriel Marques, da Schrödinger, afirmou que uma inferência de MLFF mais rápida reduz os ciclos de P&D em descoberta de medicamentos, design de catalisadores e desenvolvimento de materiais, gerando impacto real nos negócios ao permitir que empresas selecionem candidatos moleculares em dias, e não em meses

Próximos passos

  • No último ano, o AlphaEvolve se consolidou rapidamente como um sistema geral de múltiplos propósitos
  • Ele mostra que o próximo grande avanço pode ser liderado por algoritmos capazes de aprender, evoluir e se otimizar por conta própria
  • O Google DeepMind pretende expandir as capacidades do AlphaEvolve e aplicá-lo a desafios externos mais amplos

1 comentários

 
GN⁺ 1 시간 전
Opiniões do Hacker News
  • Isso me lembra o "Don't fall into the anti-AI hype" do Antirez [0]
    Resumindo em uma linha: esses modelos de base são realmente fortes para otimizar espaços de problema muito bem definidos e de altíssimo nível, como “faça multiplicação de matrizes mais rápido”. No caso do Antirez, era “faça o Redis ficar mais rápido”
    As reações se dividiram entre “isso nunca vai funcionar no meu trabalho” e “terminou em uma hora algo que levaria meses”, e acho que os dois lados estão certos. É bom ver o Antirez continuando a ter resultados [1], mas acho razoável dizer que a maior parte do trabalho das pessoas, cheio de conhecimento tácito, centrado em sistemas humanos e definido de forma ambígua, é difícil para LLMs lidarem ou talvez nem seja para isso que eles servem
    [0] https://antirez.com/news/158
    [1] https://antirez.com/news/164

    • Sinceramente, já não acredito mais tanto nisso. Os modelos começaram a lidar bem melhor com ambiguidade, e o Claude Code agora me faz perguntas quando há partes ambíguas
      Em breve, todas as reuniões serão gravadas e transcritas, e armazenadas em algum lugar bem indexado onde um agente possa pesquisar quando encontrar ambiguidade. Se ele já consegue perguntar agora, então em um ambiente assim também poderá buscar a resposta por conta própria. Na verdade, se você já tem um Notion/Confluence bem documentado, ele já faz isso; o problema é que quase nenhuma organização está nesse nível
      Reforçar por aprendizado por reforço a capacidade de “identificar ambiguidade” será mais difícil do que reforçar algoritmos de desempenho, mas não é impossível, e acredito que isso já está em andamento. Agora é questão de tempo
    • Claude e outros foram bem bons em implementar rapidamente algoritmos que eu já tinha em mente. Mas é preciso fazer muitas perguntas de controle e revisar o código
      Eles são fracos para inventar novos algoritmos fora do comum e frequentemente enfiam atalhos absurdamente imediatistas. Por enquanto ainda são ferramentas, não artesãos habilidosos no uso de ferramentas. Isso vai mudar aos poucos, e também deve diminuir o espaço em que algoritmos raros levam vantagem
    • No fim, parece que o fator é um de dois: “uau, melhorou a eficiência em 1%” ou “perdi uma hora debugando uma API alucinada de forma idiota”
      É muito difícil julgar qual dos dois lados vence na média
    • E se pesquisa assistida por IA empurrar a IA para além de LLMs? Você acha que isso não pode acontecer?
    • Dizer que “LLMs não conseguem lidar com trabalho cheio de conhecimento tácito, centrado em sistemas humanos e definido de forma ambígua” provavelmente vai parecer extremamente míope por volta de 2030
  • CEOs de IA adoram discursar dizendo que a IA vai curar o câncer, mas o único lugar que parece estar realmente focado de forma ativa nesses problemas de pesquisa é o DeepMind
    OpenAI e Anthropic parecem estar mais correndo atrás de receita corporativa e receita com programação

    • O Google consegue se autofinanciar com dinheiro de guerra, mas OpenAI e Anthropic dependem de estender a mão para investidores
  • Quem trabalha no Google está satisfeito em usar agentes de programação Gemini em vez de Claude Code ou Codex? Não estou sendo sarcástico, estou realmente curioso

    • Sim. O modelo é bom e rápido, e as ferramentas internas já alcançaram esse nível também
      Ainda há partes de UI/UX/ferramentas sendo organizadas, integração com sistemas de controle de versão e problemas mais profundos difíceis de comentar, mas acho que a maior parte das reclamações tem mais a ver com a velocidade da mudança do que com a capacidade real
      O interessante é que várias pessoas influentes internamente dizem com convicção que preferem o modelo Flash ao modelo Pro. Independentemente de isso ser verdade, é interessante que chegamos a um ponto em que o modelo “melhor” nem sempre é o mais útil, e combinar um modelo mais rápido com melhorias no harness pode ser um compromisso melhor
    • Se você está falando da extensão Gemini para VS Code, ela é péssima comparada a Claude Code ou Codex. Não sei como isso continua em produção
      Há timeouts constantes, modos de falha estranhos e o problema de ter que iniciar um novo chat para trocar de modo. Mas isso parece ser mais um problema da extensão do que do próprio modelo Gemini
      Tirando a parte da extensão do VS Code e olhando só para resolver problemas reais, os três modelos premium são excelentes agentes de programação para o meu uso
    • Programação não é a única utilidade do Gemini ou de modelos assim. E o foco deste artigo nem é programação
      O Gemini pode não ser o melhor agente de programação, mas pode ser muito bom em outras coisas
    • No mês passado, Steve Yegge deu a entender que não: https://xcancel.com/Steve_Yegge/status/2043747998740689171
    • Conversando com pessoas do Google, parece que a maioria estava insatisfeita com os agentes internos do Gemini e acha que eles pioraram bastante recentemente
      Eles esquecem completamente como chamar ferramentas, desperdiçam muito tempo e acabam desistindo, ou então ignoram totalmente diretrizes de estilo de código em arquivos parecidos com AGENTS.md
      Minha experiência rodando Gemma 4 localmente foi parecida. Depois de uma ou duas chamadas de ferramenta, ele começava a chamá-las do jeito que queria. Ontem mesmo vi redefinir uma ferramenta como read_file(start, number_of_bytes) em vez de read_file(start, end), sem sequer admitir a possibilidade de estar errado
  • Se a IA estiver melhorando por conta própria, ou pelo menos a arquitetura em que ela roda, então a singularidade está próxima, no sentido em que as pessoas costumam dizer
    Fora geração de dados sintéticos ou testes de modelo, há outros casos em que IA foi usada para melhorar LLMs?

    • Tornar a própria IA mais capaz e otimizar o software usado em treinamento e inferência de IA são coisas tão diferentes quanto maçãs e laranjas
      Um transformer mais eficiente só reduz o custo de execução
      Para dizer “a IA melhora a IA”, uma geração de IA teria que projetar uma próxima geração fundamentalmente mais capaz do que ela mesma. Não apenas mais rápida ou mais barata, mas algo no nível de um cérebro reptiliano projetando autonomamente um cérebro mamífero
      Mesmo conectado a um harness inteligente como o AlphaEvolve, não vejo LLMs tendo esse tipo de criatividade. A exceção seria se a arquitetura da próxima geração estivesse claramente escondida como uma combinação de peças que LLMs possam ser levados a prever
      O caminho mais provável é que, depois de mais alguns passos de inovação humana rumo à AGI, surja uma IA capaz de inovação autônoma, e não apenas de geração combinatória orientada por prompt
    • Sim. Quando revelaram o AlphaEvolve no ano passado, melhoraram kernels usados no treinamento da geração atual de modelos com uma versão anterior do Gemini, e isso tornou as execuções de treinamento 1% mais rápidas. Não é enorme, mas ainda assim é um resultado
    • O caso mais viral recentemente parece ser https://github.com/karpathy/autoresearch
    • Autoaperfeiçoamento não implica necessariamente singularidade, não?
      Não poderia haver restrições fortes o bastante para tornar a singularidade impossível, ou um horizonte de tempo tão longo que não seja prático?
    • Pessoalmente, acho que “IA se melhorando sozinha” é algo para observar em 2027
      Todos os grandes laboratórios de IA estão tocando projetos grandes de agentes de pesquisa, especialmente agentes voltados para melhorar IA, e espero que muitos deles saiam da fase experimental ainda este ano
      No ano que vem eles de fato vão fazer bastante coisa, e acho que veremos a primeira grande mudança arquitetural válida cocriada por IA
  • Quantas vezes ainda vamos ouvir falar do problema de Erdős? :) No começo soa como uma grande conquista da humanidade, mas com o tempo isso sempre volta

    • Só restam uns 700 problemas de Erdős em aberto, então quando todos forem resolvidos finalmente poderemos descansar
  • Enquanto isso, o Gemini CLI está quebrado há meses
    https://github.com/google-gemini/gemini-cli/issues/22141

  • Eu queria que o Google se concentrasse em lançar oficialmente os modelos Gemini 3.x e fornecesse capacidade suficiente para que a gente não precisasse continuar brigando com erros 429
    Muitas vezes parece que eles não querem que se desenvolvam aplicações para clientes corporativos usando a Vertex API. É uma pena, considerando como o modelo foi realmente excelente em análise de documentos e coisas do tipo

    • Você está usando o plano gratuito? No plano gratuito eu vi muito mais 429
  • Todos os artigos *Evolve têm resultados muito impressionantes, mas olhando as informações publicadas, fiquei com a sensação de que a atenção vai toda para o lado de LLM e IA
    Só que os resultados relatados quase sempre vêm de ambientes extremamente bem projetados para fazer LLMs e algoritmos evolutivos funcionarem bem
    Este artigo é um bom exemplo disso e vale a leitura
    Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
    https://arxiv.org/abs/2601.21096

  • É uma solução incrivelmente simples para melhorar algoritmos. Eu teria adorado ter algo assim alguns anos atrás, quando trabalhava com engenharia de ativações: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
    Como dá para acessar o AlphaEvolve?

    • É só um post para se exibir. A mensagem é: vire uma empresa de 1 bilhão de dólares ou caia fora
  • O problema que senti com Claude é simples: ele infla demais o código e os artefatos até em tarefas simples, e às vezes nem funciona
    O Gemini acerta bem esse equilíbrio, entregando uma solução funcional com só o código necessário e complexidade mínima, o que facilita a manutenção
    Hoje em dia só recorro ao Claude para código de frontend, especialmente HTML. Mesmo aí ele gera CSS demais, a ponto de ocupar algo como 60% do tamanho do arquivo, mas ainda passa uma sensação um pouco mais polida, então acabo aceitando o aumento no tamanho do arquivo