3 pontos por GN⁺ 2024-09-05 | 1 comentários | Compartilhar no WhatsApp
  • Os fundadores da Ligo Biosciences compartilharam uma implementação open source do AlphaFold3, o modelo mais recente para previsão de estrutura de proteínas
  • O Google DeepMind e sua nova startup, Isomorphic Labs, estão expandindo seus negócios para o desenvolvimento de medicamentos
    • Desenvolveram o AlphaFold3 para acelerar a descoberta de fármacos e gerar demanda de empresas farmacêuticas
    • Já assinaram contratos no valor de US$ 3 bilhões com a Novartis e a Eli Lilly
  • O AlphaFold3 é um modelo de previsão de estrutura biomolecular (biomolecular structure prediction) com três funções principais
    • Previsão de estrutura de proteínas
    • Previsão da estrutura de interações entre fármacos e proteínas
    • Previsão da estrutura de complexos entre ácidos nucleicos e proteínas
  • O AlphaFold3 é muito importante para a ciência porque acelera enormemente o mapeamento de estruturas de proteínas
    • Enquanto um doutorando pode passar todo o doutorado estudando uma única estrutura, com o AlphaFold3 é possível obter em minutos previsões comparáveis em precisão experimental
  • O problema é que o DeepMind anunciou o AlphaFold3 em maio, mas não divulgou o código
    • Isso levantou dúvidas sobre reprodutibilidade e causou insatisfação na comunidade científica
  • O AlphaFold3 representa um avanço fundamental em tecnologia de modelagem estrutural, do qual toda a indústria de biotecnologia pode se beneficiar, com aplicações muito amplas
    • Tecnologia de edição genética CRISPR: cientistas podem ver com precisão como o DNA interage com a proteína tesoura Cas
    • Pesquisa em câncer: é possível prever como potenciais fármacos se ligam a alvos de câncer. Um dos destaques do artigo da DeepMind foi a previsão da estrutura do complexo entre um inibidor clínico de KRAS e seu alvo
    • Previsão de anticorpos/nanocorpos e alvos: o AlphaFold3 dobra a precisão para essa classe de moléculas em comparação com a segunda melhor ferramenta
  • Infelizmente, como a licença é não comercial, nenhuma empresa pode utilizá-lo
  • Por isso, foi lançada uma implementação open source do AlphaFold3
    • Será disponibilizado o modelo completo treinado com proteínas de cadeia única, e as outras duas funções serão treinadas e lançadas em breve
    • O código de treinamento também está incluído
    • Os pesos serão divulgados quando o treinamento e o benchmarking forem concluídos
    • Foi adotada a licença Apache 2.0 para que seja realmente open source
  • A DeepMind divulgou, no artigo, a arquitetura completa do modelo junto com pseudocódigo de cada componente
    • Isso foi totalmente traduzido para PyTorch, mas exigiu bem mais engenharia reversa do que o esperado
  • Durante a implementação inicial, foram encontrados vários problemas no artigo da DeepMind que poderiam atrapalhar o treinamento. Algo que deve interessar à comunidade de deep learning
    • O escalonamento da perda MSE difere de Karras et al. (2022). Os pesos fornecidos no artigo não reduzem a perda em níveis altos de ruído
    • Falta uma camada residual no artigo
      • Ao adicionar a camada residual ausente, houve benefícios para o fluxo de gradiente e a convergência
      • Fica a dúvida se alguém sabe por que a DeepMind omitiu a conexão residual no bloco DiT
    • Na forma atual do módulo MSA, existe uma camada morta
      • A última camada de pair weighted averaging e a transition layer não conseguem contribuir para a representação de pares, então o gradiente não se propaga
      • Isso foi substituído por uma ordem semelhante à do ExtraMsaStack do AlphaFold2
      • Usar compartilhamento de pesos também pode ser uma alternativa, mas o artigo é vago nessa explicação
  • A Ligo (YC S24) está usando as ideias do AlphaFold3 para projetar enzimas
  • Acreditam que tornar o AlphaFold3 open source é uma missão paralela para ajudar a comunidade

Opinião do GN⁺

  • O AlphaFold3 é uma tecnologia revolucionária na área de previsão de estruturas de proteínas e deve ter grande impacto no desenvolvimento de medicamentos e na pesquisa em ciências da vida
  • No entanto, o fato de a DeepMind não ter divulgado o código pode ser visto como algo contrário à reprodutibilidade e ao espírito de colaboração da comunidade científica
  • Projetos open source com funções semelhantes ao AlphaFold3 incluem OpenFold e RoseTTAFold
  • Ao adotar o AlphaFold3, é importante avaliar com cuidado a precisão e as limitações do modelo, além dos requisitos de recursos computacionais
  • Com o surgimento de uma implementação open source, mais pesquisadores e empresas podem aproveitar os benefícios do AlphaFold3, embora ainda existam restrições para uso comercial

1 comentários

 
GN⁺ 2024-09-05
Comentários do Hacker News
  • DeepMind e AlphaFold estão migrando para código-fonte fechado

    • A Isomorphic Labs foi criada como uma divisão da Alphabet para se concentrar em trabalho de código-fonte fechado
    • Uma versão open source de uma ferramenta acadêmica parece teoricamente algo positivo
    • Não estou suficientemente familiarizado com a área para apontar benefícios específicos
    • Fico curioso sobre qual é o plano da empresa
    • Fico me perguntando se vão continuar trabalhando em projetos open source como parte do modelo de negócios ou se isso foi algo pontual
    • O site é muito vago sobre o que está tentando vender
  • Fico curioso sobre como as previsões são validadas

    • Me pergunto se, depois da previsão, ainda é preciso usar técnicas experimentais como cristalografia de raios X, crio-microscopia eletrônica etc.
    • Me pergunto se as previsões são tão próximas da realidade que dá para avançar sem experimentos
  • Fico curioso para saber se há planos de publicar um artigo sobre a implementação

    • Isso facilitaria citá-lo na literatura mais tarde
    • Me pergunto se os principais periódicos aceitariam esse tipo de artigo
    • Acho que aceitariam se houver questões de reprodutibilidade envolvidas
  • Fico feliz que seja possível usar esta versão aberta em ambientes comerciais

    • É uma ótima forma de começar uma empresa
  • Acho que seria melhor mudar o nome desta implementação

    • Porque ela não é realmente o AlphaFold3
    • Eles podem receber uma notificação da DM para parar de usar o nome
  • O código do modelo em si é uma parte pequena do desafio

    • Computação de treinamento e dados de treinamento são partes muito maiores
    • O Google provavelmente tem acesso a computação de treinamento em escala maior do que qualquer outra empresa
  • Tive uma breve experiência com proteômica computacional

    • Essa área é realmente de outro nível
  • Quem diria que publicar apenas pseudocódigo não seria suficiente

    • Fico feliz em ver o sistema imunológico científico lutando contra a ciência fechada
    • Fico curioso sobre qual será o próximo movimento do Google
  • Fico curioso se conhecem o ColabFold

  • Fico curioso sobre qual é o próximo passo

    • Me pergunto por que decidiram focar no design de enzimas