SimpleFold - a dobra de proteínas é mais simples do que parece

(github.com/apple)

2 pontos por GN⁺ 2025-09-27 | 1 comentários | Compartilhar no WhatsApp

SimpleFold é o primeiro modelo de predição de dobra de proteínas baseado em flow-matching divulgado pela Apple, além de ser um framework open source de predição de estrutura de proteínas
Em vez de projetos especializados complexos de domínio, alcança alto desempenho usando apenas camadas Transformer genéricas e treinamento generativo com flow-matching
Foi treinado com 3B (3 bilhões) de parâmetros, destacando-se como o maior da história, e mostra competitividade com modelos SOTA (estado da arte) em benchmarks públicos
Como não possui módulos estruturais complexos (atenção triangular, representações de pares etc.), é eficiente e favorável à expansão para grandes datasets
É possível ajustar e retreinar o modelo com dados personalizados do usuário, o que amplia bastante sua aplicabilidade prática em bioinformática, farmacêutica e outras áreas

Introdução e importância do SimpleFold

SimpleFold é o primeiro modelo de predição de dobra de proteínas baseado em flow-matching apresentado pela Apple
Diferentemente dos principais modelos anteriores, usa apenas camadas Transformer genéricas, sem triangle attention complexa nem viés de representação em pares (pair)
Foi treinado com um objetivo generativo de flow-matching, mostrando força não apenas em configuração única, mas também em predições por ensemble
Foi escalado até 3B de parâmetros e treinado em larga escala ao combinar mais de 8,6 milhões de dados de proteínas com dados experimentais do PDB
Este é o maior modelo de dobra de proteínas já anunciado até agora

Principais recursos e vantagens

Generalidade: pode ser aplicado a vários domínios e datasets sem restrições
Eficiência: como não há componentes complexos especializados de domínio, oferece vantagens em velocidade de treino e inferência, além do tamanho do modelo
Escalabilidade: oferece vários tamanhos, de 100M a 3B de parâmetros, com suporte a GPU e MLX (PyTorch/Apple hardware)
Treinamento generativo: suporta predições por ensemble, produzindo vários resultados de previsão de uma só vez
Compatibilidade com dados do usuário: permite retreinamento, tuning e uso customizado com seus próprios datasets

Exemplos de uso e suporte

Fornece exemplo em Jupyter Notebook (sample.ipynb), permitindo prever estruturas imediatamente a partir de sequências reais de proteínas
Inferência de alto desempenho: na interface de linha de comando, é possível escolher o tamanho do modelo, definir o backend de inferência (MLX, PyTorch) e obter arquivos de resultado e métricas de confiança (pLDDT)
Resultados em datasets de benchmark: disponibiliza e abre os resultados de predição do SimpleFold em conjuntos padrão de avaliação (CAMEO22, CASP14 etc.)
Avaliação: oferece scripts de avaliação integrados com ferramentas existentes como OpenStructure e TMscore, permitindo várias formas de avaliação de predição estrutural

Treinamento e preparação de dados

Para dados de treinamento, utiliza dados experimentais do PDB e mais de 8,6 milhões de estruturas de proteínas refinadas, incluindo AFDB SwissProt/AFESM/AFESM-E
Também publica listas de dados (listas de alvos) e arquivos de exemplo, apoiando pesquisadores na construção de datasets personalizados
Permite montar facilmente o ambiente experimental com pré-processamento de arquivos MMCIF, uso de Redis e arquivos de configuração baseados em Hydra
Fornece scripts de treino de exemplo (train.py, train_fsdp.py) e configurações (config)

Open source e citação

Publicado sob licença MIT, permitindo uso livre em pesquisa e aplicações comerciais em qualquer lugar
O código e os modelos incluem contribuições de vários projetos open source e colaboradores; para detalhes, é necessário consultar o ACKNOWLEDGEMENTS
Ao utilizar, cite o artigo no arXiv (Arxiv:2509.18480)

Conclusão

SimpleFold propõe um novo paradigma para o setor ao substituir as estruturas complexas das quais os modelos tradicionais de predição estrutural de proteínas dependiam por uma abordagem simples, porém poderosa
Em especial, a combinação de arquitetura Transformer genérica com treinamento generativo abre espaço para diversas aplicações criativas em ciências da vida, descoberta de fármacos e bioinformática

1 comentários

GN⁺ 2025-09-27

Comentários do Hacker News

O ponto fácil de perder aqui é que o modelo "simples" na verdade não aprendeu dobramento apenas a partir de estruturas experimentais. A maior parte dos dados de treino veio de previsões no estilo AlphaFold, ou seja, milhões de estruturas de proteínas já produzidas por modelos enormes, complexamente projetados e baseados em MSA. Em outras palavras, não dá para simplesmente descartar todos os vieses indutivos e as ferramentas de MSA; alguém precisou construir e rodar esses modelos para gerar os dados de treino
- A lição que tiro daqui é sobre simplicidade e escalabilidade. Em machine learning, frequentemente aparecem módulos cada vez mais complexos para melhorar desempenho e, de repente, surge um avanço em que um modelo simples se equipara aos complexos. O fato de uma arquitetura "simples" funcionar tão bem por si só também sugere que ainda pode ir mais longe ao reintroduzir complexidade. Agora fico curioso se seria possível colocar MSA de volta e até onde isso poderia ir. Pelo que entendi, um modelo gerador "grosseiro" produz várias hipóteses razoáveis, e "verificadores" mais formais garantem que as leis físicas/geométricas sejam respeitadas. A IA reduz um espaço de busca inimaginavelmente grande, evitando que simulações caras sejam desperdiçadas onde não valem a pena. Se a rede de palpites melhora, o processo inteiro acelera. Olhando para trás, isso me lembra redes recorrentes com funções de transferência cada vez mais complexas, cadeias complexas de pré-processamento antes de skip-forward layers, objetivos compostos de normalização antes de ReLU, redes GAN com objetivos complexos antes de diffusion, modelos complexos de múltiplos caminhos antes de redes totalmente convolucionais, etc. Nesse sentido, estou muito empolgado com este trabalho não porque ele seja a arquitetura ideal, mas justamente porque provavelmente não é
- Não sei se isso é tão estranho assim. Quase todas as coisas simples já foram consideradas complexas um dia. Emergência é justamente isso, e normalmente é preciso atravessar toda a complexidade antes de encontrar uma fórmula geral e simples. Também é evidente que fenômenos da natureza na verdade surgem de regras relativamente simples. É como tentar inferir ao contrário as regras e os valores iniciais do Game of Life. Quem diz que isso é fácil está confiante demais. Mas quase ninguém realmente acredita que P=NP
- O AlphaFold é um modelo validado por meio da observação experimental de proteínas dobradas com raios X
- Sim. Para quem talvez não saiba, MSA é usado para generalizar de estruturas PDB existentes para novas sequências. Se você treina com resultados do AlphaFold2, esse resultado de generalização já vem embutido, então o modelo deixa de precisar dessa capacidade por conta própria (em certo sentido, basta memorizar). Essa conclusão simples parece ter passado despercebida pelos autores do artigo
Conheci o Folding@Home(https://foldingathome.org) pela primeira vez na época em que a energia no dormitório da faculdade era praticamente grátis e eu tinha um servidor de mídia sobrando. Não sou especialista, mas tenho curiosidade se hoje em dia, com o hardware atual, o dobramento de proteínas ficou muito mais simples do que antes, ou se isso só vale para problemas específicos. Pelo visto o projeto Folding@Home ainda existe
- Até onde sei, o Folding@Home era um solver de simulação baseado em física, enquanto o AlphaFold e seus descendentes, inclusive este daqui, são métodos estatísticos. Métodos estatísticos são muito mais baratos computacionalmente, mas como se baseiam em dobramentos de proteínas já existentes, têm pouco poder preditivo quando a proteína não é parecida com as do conjunto de treino. Ou seja, existe um trade-off entre velocidade e generalidade, mas o desempenho melhorou tanto que agora normalmente já dá para obter a estrutura dobrada da proteína desejada. A predição de dobramento, que antes era quase impossível, agora virou parte de um workflow comum
- Eu também curtia o SETI@Home, e mesmo sem entender 100% o que o resultado significava, era divertido porque a visualização chamava atenção
- Segundo um post do blog do F@H (link), ainda é importante conhecer não só a forma final dobrada, mas também a dinâmica do dobramento. Proteínas previstas por ML também são alvos importantes para validação por simulação e para entender seu mecanismo de funcionamento
- O Folding@Home continua muito ativo e produziu muitas descobertas excelentes ao longo do tempo (link de artigos/resultados)
O artigo basicamente diz: "nosso método é mais simples do que modelos state of the art". Mas não destaca tanto que "fica consideravelmente atrás do estado da arte em todas as métricas". Publicar artigo já é difícil, mas parece que, se você coloca o nome de uma big tech e sobe como preprint, consegue chamar mais atenção
Vale muito a pena ler o repositório GitHub ligado ao texto principal (link do arXiv)
- Só pelo resumo (se li direito), a mensagem é: "ainda precisa de IA do mesmo jeito, mas dá para usar muito menos IA do que em outros métodos"
- Também deixo aqui o link do GitHub para quem tiver interesse (apple/ml-simplefold)
Fico me perguntando por que a Apple está trabalhando com dobramento de proteínas
- A Apple também tem um grupo de pesquisa em ML. Eles fazem não só pesquisa com a cara da Apple, mas também vários temas como otimização genérica e pesquisa de base (Apple Machine Learning Research)
- Também não sei. Mas eu toparia me candidatar a um cargo de P&D em que não fosse preciso esperar receita direta. Talvez projetos assim estejam sendo usados para testar ou refinar os chips de IA da empresa
- Acho que é por causa de inferência local. Parece que a Apple quer encolher esses modelos de ponta para permitir inferência rápida em desktop. No artigo, os resultados de inferência em um M2 Max 64GB aparecem na Figure 1E. Na verdade, é uma ideia excelente. Até farmacêuticas pequenas poderiam superar muitas barreiras graças à inferência local rápida. Também daria para experimentar otimização bayesiana ou RL com as sequências geradas. Em comparação, o AlphaFold exige bastante recurso. Além disso, o uso de alinhamento múltiplo de sequências é meio forçado, funciona pior quando não há proteínas parecidas e ainda exige um pré-processamento enorme. O ESM da Meta (de alguns anos atrás) já mostrou que também dá para funcionar bem sem alinhamento. O AlphaFold não tem nenhuma mágica especial; no fim, é só um problema seq2seq, então várias abordagens funcionam bem, inclusive attention-free SSMs.
- Para vender computadores? Há 20 anos a Apple fazia até sessão de pôsteres científicos na WWDC e se esforçava para portar o PyMol para o Mac. As imagens de proteínas no artigo foram feitas com PyMol, e mais da metade das imagens de artigos científicos nos últimos 15 anos foi produzida com PyMol
- Não sei se esse é o motivo real, mas uma parte considerável dos projetos de "AI for science" na prática é marketing. Mesmo quando não trazem benefício direto para os produtos da empresa ou não geram resultado concreto, esses projetos ajudam bastante na "imagem de marca"
Desde que o AlphaFold foi lançado, fico me perguntando se as simulações clássicas de dinâmica molecular (MD) se tornaram inúteis no campo de dobramento de proteínas. Pesquisas de lugares como a DESRES ainda estão diretamente ligadas ao dobramento de proteínas, ou tratam de outra coisa completamente diferente?
- MD lida com o movimento dos átomos, enquanto o AlphaFold só fornece snapshots do resultado. Ou seja, o AlphaFold não trata da dinâmica. O ponto central da MD continua sendo o movimento
- Fui checar porque achei curioso que os parâmetros do AlphaFold V3 só são fornecidos a organizações específicas (e apenas para uso não comercial), não estão disponíveis para qualquer um (parâmetros do V3), enquanto os parâmetros do AlphaFold V2 podem ser baixados por qualquer pessoa (parâmetros do V2)
- MD nunca foi exatamente um método realmente viável para previsão de estrutura. Não é que tenha se tornado inútil por causa do AlphaFold; desde o início, MD era mais adequada para estudar o próprio dobramento de proteínas (o processo antes da formação da estrutura final, ou os movimentos sistemáticos depois que ela já está dobrada)
Fui procurar qual proteína aparecia na figura do artigo: "Figure 1 SimpleFold predictions... ground truth in bright emerald, predictions in deep teal". Mas aí acabei ficando ainda mais curioso sobre por que escolheram essa combinação de cores
- A figura a) mostra a proteína 7QSW(https://www.ebi.ac.uk/pdbe/entry/pdb/7qsw), ou seja, um diagrama em fita da proteína vegetal RubisCO(https://en.wikipedia.org/wiki/RuBisCO), fundamental para a fotossíntese. As cores foram usadas para distinguir a previsão do valor real (ground truth). A dificuldade de distinguir vem não só da escolha de cores que você mencionou, mas também do fato de previsão e valor real estarem muito próximos. Se a previsão não fosse precisa, seria possível ver partes deslocadas no espaço 3D, sem encaixe adequado
Seria bom ver algum especialista avaliando o que essa abordagem pode significar para a pesquisa em dobramento de proteínas. Parece um trabalho legal, mas não tenho muita noção do impacto real que isso pode ter
- O modelo é simples em termos de representação, então usa basicamente só transformer. Dá para aplicar diretamente várias teorias e ferramentas já adaptadas a transformers, e o mais importante é que ele é fácil de escalar. Mais importante ainda é o fato de que não havia nenhuma mágica no AlphaFold. Mais do que detalhes da arquitetura ou do método de treino, no fim o essencial era treinar modelos grandes em datasets grandes. Muita gente que experimentou o AlphaFold observou que ele se comporta de forma parecida com LLMs (acerta bem entradas semelhantes ao dataset de treino, mas quase não generaliza)
- Talvez haja mudanças nos modelos futuros. A opinião de uma pessoa pode servir como referência (SimpleFold e o futuro da previsão de estrutura de proteínas). Mas pesquisa sempre leva tempo, e o impacto real só dá para avaliar em meses ou anos. A capacidade de prever o futuro é limitada
Não é algo totalmente novo, mas é muito impressionante ver a tendência de simplificação dos modelos de dobramento de proteínas. Do AF2 para o AF3 a complexidade do modelo já diminuiu, e este trabalho dá mais um passo nessa direção, colocando a "bitter lesson" em prática
- Fico na dúvida se o AF3 só conseguiu garantir desempenho porque incluiu nos dados de treino os resultados do AF2, que já embutiam bastante viés indutivo
A técnica de flow-matching abordada no artigo é realmente muito interessante. Conheci isso estudando no contexto de IA generativa, e é fascinante ver uma técnica emprestada de conceitos termodinâmicos e movimento browniano sendo aplicada de forma tão perfeita à resolução do problema de dobramento de proteínas

SimpleFold - a dobra de proteínas é mais simples do que parece

Introdução e importância do SimpleFold

Principais recursos e vantagens

Exemplos de uso e suporte

Treinamento e preparação de dados

Open source e citação

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News