1 pontos por GN⁺ 2024-07-14 | 1 comentários | Compartilhar no WhatsApp

Introdução

Para quem este texto é indicado

  • Pessoas que querem entender como o AlphaFold3 funciona
  • Pessoas que querem compreender estruturas complexas visualmente
  • Pessoas familiarizadas com machine learning

Visão geral da arquitetura

  • O AlphaFold3 prevê estruturas de proteínas, ácidos nucleicos, pequenas moléculas etc.
  • Usa um método de featurização/tokenização mais complexo para lidar com tipos de entrada complexos

Preparação da entrada

Tokenização

  • Aminoácidos padrão: 1 token
  • Nucleotídeos padrão: 1 token
  • Aminoácidos/nucleotídeos não padrão: 1 átomo por token
  • Outras moléculas: 1 átomo por token

Busca (geração de MSA e templates)

  • Encontra sequências semelhantes para gerar MSA e templates
  • Calcula a distância euclidiana e depois a converte em um distograma

Geração de representação em nível atômico

  • Gera uma "estrutura de referência" para cada aminoácido, nucleotídeo e ligante
  • Gera a representação única em nível atômico (q) e a representação em pares (p)

Atualização da representação em nível atômico (Atom Transformer)

  • Atualiza q e p para gerar representações melhores
  • Usa Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating e Conditioned Transition

Agregação do nível atômico -> nível de token

  • Converte as representações em nível atômico para o nível de token
  • Adiciona MSA e informações fornecidas pelo usuário

Aprendizado de representação

Módulo de templates

  • Usa templates para atualizar z

Módulo MSA

  • Atualiza MSA e z
  • Usa Outer Product Mean e Row-wise Gated Self-Attention Using Only Pair Bias

Módulo Pairformer

  • Atualiza s e z
  • Usa Triangle Updates e Triangle Attention

Predição de estrutura

Princípio básico da difusão

  • Usa um modelo de difusão para prever a estrutura
  • Adiciona e remove ruído para gerar a estrutura final

Resumo do GN⁺

  • O AlphaFold3 prevê estruturas complexas como proteínas, ácidos nucleicos e pequenas moléculas
  • Ajuda na compreensão ao explicar a arquitetura complexa do modelo com diagramas visuais
  • É um modelo que representa um avanço importante nas áreas de machine learning e biotecnologia
  • Projetos com funcionalidades semelhantes incluem o RosettaFold

1 comentários

 
GN⁺ 2024-07-14
Opiniões do Hacker News
  • Sou grato por este texto traduzir o artigo de forma que biólogos estruturais possam entendê-lo

  • Descobri que o AF3, com número limitado de PTMs, precisa tratar todos os átomos como tokens individuais

  • Isso provavelmente acontece porque PTMs aparecem muito pouco no PDB

  • Este é um texto que oferece um vislumbre de como redes neurais e tecnologias de IA poderão ser implementadas no futuro

  • Muito trabalho de engenharia e manipulação engenhosa de técnicas existentes se combinam com um modelo poderoso e bem treinado

  • No momento, algo como o ChatGPT está na primeira etapa de criar um modelo fundamental de generalização e processamento de dados

  • Ainda não há muito trabalho sendo feito para processar a entrada de modo que o modelo a compreenda da forma ideal

  • Existe pesquisa básica nessa área, mas ainda nada tão sofisticado quanto o AlphaFold

  • As pessoas estão combinando LLMs e usando prompts de sistema para ajudar no processamento da entrada

  • Quando surgirem sistemas mais complexos, talvez possamos ver algo parecido com uma AGI de verdade

  • Extremamente complexo

  • Nunca tinha ouvido falar dos algoritmos MSA usados para alinhar sequências de proteínas

  • Texto incrível, obrigado

  • Pretendo ler com mais detalhes