Introdução
Para quem este texto é indicado
- Pessoas que querem entender como o AlphaFold3 funciona
- Pessoas que querem compreender estruturas complexas visualmente
- Pessoas familiarizadas com machine learning
Visão geral da arquitetura
- O AlphaFold3 prevê estruturas de proteínas, ácidos nucleicos, pequenas moléculas etc.
- Usa um método de featurização/tokenização mais complexo para lidar com tipos de entrada complexos
Preparação da entrada
Tokenização
- Aminoácidos padrão: 1 token
- Nucleotídeos padrão: 1 token
- Aminoácidos/nucleotídeos não padrão: 1 átomo por token
- Outras moléculas: 1 átomo por token
Busca (geração de MSA e templates)
- Encontra sequências semelhantes para gerar MSA e templates
- Calcula a distância euclidiana e depois a converte em um distograma
Geração de representação em nível atômico
- Gera uma "estrutura de referência" para cada aminoácido, nucleotídeo e ligante
- Gera a representação única em nível atômico (
q) e a representação em pares (p)
Atualização da representação em nível atômico (Atom Transformer)
- Atualiza
q e p para gerar representações melhores
- Usa Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating e Conditioned Transition
Agregação do nível atômico -> nível de token
- Converte as representações em nível atômico para o nível de token
- Adiciona MSA e informações fornecidas pelo usuário
Aprendizado de representação
Módulo de templates
- Usa templates para atualizar
z
Módulo MSA
- Atualiza MSA e
z
- Usa Outer Product Mean e Row-wise Gated Self-Attention Using Only Pair Bias
Módulo Pairformer
- Atualiza
s e z
- Usa Triangle Updates e Triangle Attention
Predição de estrutura
Princípio básico da difusão
- Usa um modelo de difusão para prever a estrutura
- Adiciona e remove ruído para gerar a estrutura final
Resumo do GN⁺
- O AlphaFold3 prevê estruturas complexas como proteínas, ácidos nucleicos e pequenas moléculas
- Ajuda na compreensão ao explicar a arquitetura complexa do modelo com diagramas visuais
- É um modelo que representa um avanço importante nas áreas de machine learning e biotecnologia
- Projetos com funcionalidades semelhantes incluem o RosettaFold
1 comentários
Opiniões do Hacker News
Sou grato por este texto traduzir o artigo de forma que biólogos estruturais possam entendê-lo
Descobri que o AF3, com número limitado de PTMs, precisa tratar todos os átomos como tokens individuais
Isso provavelmente acontece porque PTMs aparecem muito pouco no PDB
Este é um texto que oferece um vislumbre de como redes neurais e tecnologias de IA poderão ser implementadas no futuro
Muito trabalho de engenharia e manipulação engenhosa de técnicas existentes se combinam com um modelo poderoso e bem treinado
No momento, algo como o ChatGPT está na primeira etapa de criar um modelo fundamental de generalização e processamento de dados
Ainda não há muito trabalho sendo feito para processar a entrada de modo que o modelo a compreenda da forma ideal
Existe pesquisa básica nessa área, mas ainda nada tão sofisticado quanto o AlphaFold
As pessoas estão combinando LLMs e usando prompts de sistema para ajudar no processamento da entrada
Quando surgirem sistemas mais complexos, talvez possamos ver algo parecido com uma AGI de verdade
Extremamente complexo
Nunca tinha ouvido falar dos algoritmos MSA usados para alinhar sequências de proteínas
Texto incrível, obrigado
Pretendo ler com mais detalhes