AlphaGenome: IA para entender melhor o genoma

(deepmind.google)

1 pontos por GN⁺ 2025-06-27 | 2 comentários | Compartilhar no WhatsApp

O Google DeepMind apresentou o AlphaGenome, um novo modelo de IA para sequências de DNA
O modelo aumenta a precisão na previsão dos efeitos de variantes regulatórias de genes e pode prever diversos processos de regulação genética
Seu diferencial é receber como entrada sequências de DNA longas, de até 1 milhão de pares de bases, para prever vários fenômenos biológicos em alta resolução
Diferentemente dos modelos anteriores, ele consegue avaliar de uma vez o impacto de variantes em diversos tecidos biológicos e tipos celulares
Espera-se que o AlphaGenome ajude pesquisadores a compreender a função dos genes e a biologia das doenças, além de acelerar a descoberta de novos tratamentos

Introdução ao AlphaGenome

O Google DeepMind apresentou o AlphaGenome, um novo modelo de IA para sequências de DNA
Ao prever com precisão os efeitos de variantes únicas ou mutações que afetam a regulação genética, o modelo representa um ponto de virada importante para a pesquisa sobre a função do genoma e a compreensão de doenças
Já está disponível antecipadamente via API para fins de pesquisa, e o modelo deverá ser disponibilizado futuramente

Como o AlphaGenome funciona

O AlphaGenome recebe como entrada sequências longas de DNA de até 1 milhão de pares de bases e prevê diversas características moleculares
Entre as características que consegue prever estão posição dos genes, quantidade de RNA produzida, acessibilidade do DNA e locais de ligação de proteínas, entre milhares de outras
O modelo foi treinado com grandes bases de dados públicas, como ENCODE, GTEx, 4D Nucleome e FANTOM5
Internamente, ele usa camadas convolucionais para detectar primeiro padrões curtos, depois transformers para combinar informações ao longo de toda a sequência e, por fim, gerar diferentes previsões
O treinamento ganha eficiência ao processar grandes volumes de computação em um ambiente distribuído de TPU
Evoluindo a partir do modelo Enformer, ele analisa de forma abrangente até regiões não codificantes (98% do genoma inteiro), ao contrário do AlphaMissense, voltado apenas para regiões codificadoras de proteínas

O que diferencia o AlphaGenome

Análise de sequências de longa distância em altíssima resolução: analisa em escala de 1 milhão de pares de bases e fornece resultados com precisão no nível de uma única base
Tem maior eficiência de treinamento que modelos anteriores, aprendendo mais rápido com menos recursos
Previsão multimodal integrada: prevê simultaneamente, em um único modelo, informações de diferentes etapas da regulação genética
Pontuação eficiente de variantes: compara imediatamente a sequência alterada com a sequência normal para calcular rapidamente o impacto da variante em diversos fenômenos biológicos
Modelagem inovadora de junções de splicing: prevê diretamente posições de splicing gênico e níveis de expressão, contribuindo também para pesquisas sobre doenças raras

Desempenho avançado e resultados de benchmark

O AlphaGenome superou ou igualou o desempenho dos melhores modelos externos em 22 de 24 benchmarks de previsão genômica e em 24 de 26 avaliações de efeitos regulatórios de variantes
É o único modelo capaz de prever simultaneamente diversos tipos de características biológicas em uma única chamada de API, algo que modelos especializados em tarefas isoladas não conseguem fazer

Vantagens de um modelo integrado

Por lidar de forma integrada com várias modalidades, permite que cientistas iterem rapidamente diferentes hipóteses e experimentos
Aprende uma representação geral das sequências de DNA, facilitando treinamento adicional e otimização pela comunidade
Oferece flexibilidade e escalabilidade para expansão com mais dados e novos escopos de aplicação

Significado como ferramenta poderosa de pesquisa

Compreensão de doenças: pode ser usado para investigar causas de doenças, como variantes raras, e buscar alvos terapêuticos
Biologia sintética: pode ser aplicado ao projeto de DNA sintético com funções específicas
Pesquisa básica: apoia o mapeamento de elementos funcionais centrais do genoma e a descoberta de elementos regulatórios por tipo celular
Na prática, o AlphaGenome previu que uma variante associada à T-ALL (leucemia linfoblástica aguda) cria um motivo de ligação de DNA MYB, ativando o gene TAL1 próximo, e reproduziu com sucesso o mecanismo pelo qual essa variante afeta um gene ligado à doença

Limitações atuais

Identificar o efeito de elementos regulatórios muito distantes, a mais de 100 mil bases de distância, ainda é um desafio
O reconhecimento de padrões específicos de células e tecidos também exige mais pesquisa
O uso para previsão de genoma individual (diagnóstico e predição personalizados) não está sendo considerado no momento
Só é capaz de fazer previsões em nível molecular e não explica completamente todas as causas complexas das doenças
Ainda está em fase de divulgação para pesquisa, sem avaliação direta de adequação clínica ou aplicação terapêutica

Suporte à comunidade e próximos passos

A API já pode ser usada imediatamente para pesquisa não comercial, e há planos de ampliar o uso do AlphaGenome por meio de colaboração ampla com a comunidade de pesquisa
A equipe está recebendo feedback e casos de uso por meio de fóruns da comunidade
O modelo deve evoluir para versões expandidas com mais dados, espécies e modalidades
Há expectativa de impulsionar novas inovações em medicina e pesquisa em ciências da vida relacionadas à interpretação do genoma

Encerramento

O AlphaGenome é uma nova ferramenta de análise genômica baseada em IA capaz de interpretar, de uma só vez e sob múltiplas perspectivas, o significado das variantes genéticas, acelerando pesquisas básicas e clínicas
Em colaboração com especialistas externos, a empresa pretende ampliar ao máximo a inovação baseada em dados genômicos para alcançar o maior número possível de pessoas

2 comentários

galadbran 2025-06-27

Fiquei curioso sobre quais modalidades compõem a multimodalidade em um modelo de IA que lida com predição genética, então perguntei ao o3, e ele me disse que coisas como nível de transcrição, posições de início e fim da transcrição, splicing etc. são consideradas modalidades.

GN⁺ 2025-06-27

Comentários do Hacker News

Dá para ver aí um sinal de que a pressão corporativa está ficando mais forte: mesmo sendo um modelo que roda em uma única A100, não liberaram nem o código nem os parâmetros, deixando tudo só atrás de uma API, e na página 31 do artigo simplesmente colaram o modelo inteiro em pseudocódigo; fica o desejo de que Google/Demis/Sergei ao menos liberem os parâmetros. Um modelo tão pequeno preso atrás de API não vai curar câncer, e também não parece que vai gerar uma receita enorme para o GCloud.
Há expectativa de um avanço na área de simulação celular, permitindo implementar simulações tão úteis quanto dinâmica molecular, mas viáveis em supercomputadores modernos. A incapacidade de ver o que acontece por dentro é vista como um grande obstáculo na pesquisa em biociências.
- A Arc está de fato tentando fazer esse trabalho; mais detalhes podem ser vistos nesta notícia relacionada do arcinstitute.org
- Acho que computação quântica pode resolver essa parte, mas ainda deve levar uns 10 anos; já a aceleração via IA é difícil de prever.
- Gostaria que houvesse mais esforço para criar simulações verdadeiramente determinísticas; considero mais importante um método que revele o processo interno do que uma caixa-preta que só mostra o resultado.
Não é só a DeepMind que faz pesquisa aplicada em IA de alto impacto, mas chama atenção o quanto ela se destaca nessa área; a dúvida é se isso vem de marketing técnico excelente ou de outro motivo.
- Este artigo é uma pesquisa bem-feita, mas não parece uma inovação revolucionária; tentativas parecidas já existem há bastante tempo.
- A DeepMind trabalha nisso há muito tempo, com o enorme suporte de recursos do Google; segundo o Perplexity, a construção do banco de dados do AlphaFold 2 consumiu “milhões de horas de GPU”.
- Na área de biociências, o Arc Institute vem fazendo pesquisas muito interessantes; entre as farmacêuticas, Genentech ou GSK estão tendo ótimos resultados em seus grupos de IA.
- Por ser uma organização dentro do Google, o apoio de uma empresa de US$ 2 trilhões traz vantagens que vão além de marketing.
É interessante imaginar expandir o tamanho de entrada para 3,2 Gbp, o tamanho do genoma humano; parece que interações curiosas surgiriam daí. Também chama atenção o fato de U-net e transformer estarem no centro da pesquisa.
- Na prática, acho que não é preciso mais de 2 megabases. O genoma não é uma única sequência contínua; ele é fisicamente separado e organizado em cromossomos e topologically associated domains. Algo em torno de 2 megabases já cobre quase toda a principal faixa de interação entre cis regulatory elements e genes efetores.
- Sobre “é interessante que tudo gire em torno de U-net e transformer”, houve a menção à perspectiva de “quem só tem um martelo”.
Dentro das empresas, provavelmente também surgirão ideias de usar dados genômicos para aumentar a eficiência de anúncios; por exemplo, se aparecer risco de câncer colorretal, mostrar anúncio de “suplemento para saúde do cólon”, ou analisar tendências a partir de informação genética e montar estratégias como “este gene tem correlação com preferência por humor ácido; vamos promover o novo filme para pessoas com esse gene”.
Um grande salto no desempenho de predição de RNA deve abrir uma grande oportunidade para laboratórios de mRNA.
- (Resposta logo em seguida: acho que isso pode aparecer de forma ainda mais clara fora dos EUA.)
Logo depois de entrar no Google em 2008, defendi muito investimento em biociências. Eu estava convencido de que o Google poderia produzir resultados de classe mundial em processamento de dados e ML, e ajudar outros biólogos a reproduzir esses métodos. De fato, o exacycle produziu resultados interessantes em folding/design de proteínas, e depois veio o Cloud Genomics, oferecendo armazenamento e análise de datasets em larga escala. No fim, a DeepMind realizou de forma muito mais impressionante o objetivo que eu imaginava; os artigos recentes têm tanto conteúdo que a comunidade provavelmente vai levar tempo para absorver tudo.
- Concordo com a avaliação de que o Sundar não é um líder inspirador como CEO do Google, mas ele conduziu um crescimento de 10x, de US$ 3 bi de lucro trimestral em 2015, antes de assumir, para US$ 35 bi no 1º trimestre de 2025. Manteve o negócio de anúncios firme e levou a empresa à rentabilidade atual. A virada para IA foi um pouco tardia, mas ainda assim parece competitiva com Gemini etc. A DeepMind também teve resultados extraordinários; a avaliação seria algo como “Sundar gera pouco hype, mas entrega muito resultado”.
- Houve a opinião de que dizer “fico feliz que um desejo antigo tenha se realizado” soa bastante autocongratulatório. A maioria das pessoas também tem grandes ideias, mas ainda assim seria estranho dizer algo como “finalmente! minha ideia chegou ao mundo...”.
- Alguém perguntou se já tinham conversado sobre isso no ônibus shuttle de Santa Cruz no passado; comentou que a conversa daquela época foi muito interessante e que continua empolgado mesmo agora com o surgimento do AlphaGenome.
- Do ponto de vista de um Googler atual, a avaliação sobre Sundar é bem complexa; reconhece-se o investimento inicial em infraestrutura e ferramentas para IA, mas acha-se que Jeff Dean merece mais crédito do que Demis.
Foi decepcionante que o artigo ignore um dos maiores problemas da área: distinguir, entre regiões de DNA altamente associadas, quais variantes são realmente causais e quais não são causais (o que em genética se chama fine mapping). Para alvos terapêuticos eficazes, é crucial delimitar com precisão as regiões regulatórias centrais. Um artigo recente da Nature traz um exemplo desse problema e até um caso conectado a um candidato a fármaco para regular a função de macrófagos em autoimunidade.
- Fico curioso se estes resultados já estão mais próximos dessa direção. Não tenho conhecimento profundo da área, mas parece que, se a predição funcional melhorar, ficará mais fácil distinguir variantes realmente importantes das sem significado; imagino que o próximo passo seja integrar isso a métodos estatísticos adequados de fine mapping.