3 pontos por GN⁺ 2025-06-04 | 1 comentários | Compartilhar no WhatsApp
  • Artigos sobre previsão de função enzimática com modelos de deep learning recebem grande atenção e muitas citações, enquanto artigos que apontam erros por meio de checagem de fatos quase não recebem atenção
  • Um estudo publicado na Nature Communications treinou um modelo baseado em Transformer com 22 milhões de dados de enzimas e previu 450 funções enzimáticas não identificadas
  • Porém, um artigo posterior revelou centenas de previsões erradas, duplicação de dados e conclusões biologicamente impossíveis
  • Sem uma análise aprofundada por especialistas, é difícil avaliar a confiabilidade dos resultados de IA, e aumenta o risco de que dados errados continuem se propagando
  • Mais do que modelos de IA chamativos, volta a ganhar destaque a importância da validação fundamental dos dados e da integração de conhecimento de domínio

Deep learning gets the glory, deep fact checking gets ignored

  • Um artigo sobre previsão de função enzimática com deep learning treinou um modelo Transformer com 22 milhões de dados de enzimas, previu 450 funções enzimáticas não identificadas e, ao ser publicado na Nature Communications, recebeu grande atenção
  • Porém, um artigo posterior encontrou centenas de previsões incorretas, sobreposição com bancos de dados já existentes, resultados biologicamente impossíveis e vários erros repetidos
  • Por exemplo, a IA previu de forma errada a função de um gene específico de E. coli e cometeu esse erro mesmo já havendo estudos anteriores mostrando que aquela não era sua função
  • O artigo que revelou esses erros foi publicado no bioRxiv, mas teve poucas visualizações e citações, expondo problemas na estrutura de incentivos da publicação científica
  • Especialistas enfatizam a necessidade de validação de dados e conhecimento especializado de domínio, mais do que apenas modelagem de IA, e alertam para o risco de informações erradas voltarem a se espalhar por meio de bancos de dados

The Problem of Determining Enzyme Function

  • As enzimas desempenham o papel de acelerar reações importantes nos seres vivos, e diferentes funções são classificadas por números da Enzyme Commission (EC)
  • A tarefa de prever o número EC a partir da sequência de aminoácidos é vista como adequada para machine learning, porque entrada e saída são claramente definidas
  • O banco de dados UniProt reúne mais de 22 milhões de enzimas e números EC, oferecendo dados abundantes para treinamento

An Approach with Transformers (AI model)

  • Os pesquisadores usaram um modelo composto por Transformer, camadas convolucionais e camadas lineares para prever a função de enzimas não identificadas
  • Um ponto digno de nota é que, para a interpretabilidade do modelo, eles analisaram se as high attention regions tinham significado biológico
  • Entre as 450 enzimas não identificadas, apenas 3 foram validadas experimentalmente (in vitro), e os autores afirmaram que isso comprovava a precisão

The Errors

  • Entre os 450 resultados “novos” apresentados no artigo da Nature, 135 já existiam em bancos de dados anteriores
  • 148 resultados tinham altíssima repetição, com a mesma função enzimática sendo prevista várias vezes, o que confirmou diversos erros biologicamente impossíveis
  • Também foram encontrados muitos casos em que se previu erroneamente enzimas para sintetizar substâncias que E. coli não produz, ou resultados que contradiziam experimentos anteriores
  • Também foi levantada a possibilidade de data leakage, e os erros ocorreram com frequência em previsões feitas em áreas sem ground truth real

The Microbiology Detective

  • No artigo posterior, a Dra. de Crécy-Lagard confirmou que uma das previsões do artigo da Nature, sobre a enzima yciO, contrariava claramente pesquisas anteriores
  • Embora yciO e TsaC sejam evolutivamente relacionados, experimentos reais mostraram repetidas vezes que yciO não substitui a função de TsaC
  • Isso revelou a limitação do algoritmo de tratar funções como iguais apenas com base em similaridade estrutural simples
  • Para determinar a função de enzimas, é preciso considerar de forma integrada vários tipos de evidência, como contexto genético, ligação a substrato e vias metabólicas

Hundreds of Likely Erroneous Results

  • A equipe do artigo posterior confirmou que, entre os 450 resultados previstos no artigo da Nature, 135 já estavam registrados em bancos de dados
  • Os 148 casos foram analisados como problemas decorrentes de viés nos dados, falta de características e limitações da arquitetura, incluindo previsões repetidas da mesma função
  • Em vários resultados, o erro foi comprovado por contexto biológico ou pela revisão da literatura existente

Rethinking Enzyme Classification and “True Unknowns”

  • Na previsão de função enzimática, misturam-se duas tarefas: propagação de funções conhecidas (propagation) e descoberta de funções realmente desconhecidas (discovery)
  • Supervised ML tem limitações intrínsecas para prever funções realmente desconhecidas
  • Previsões erradas entram em bancos de dados como o UniProt, e esses dados voltam a ser usados no treinamento de modelos, criando um ciclo de erros

Need for Domain Expertise

  • Ao contrário da pesquisa em IA, a validação de dados e a análise aprofundada por especialistas de domínio recebem poucos incentivos e, por isso, menos atenção dos pesquisadores
  • De fato, o artigo mostra que uma das causas do fracasso de projetos de IA de alto risco é a aplicação insuficiente de conhecimento de domínio
  • A maioria dos artigos de deep learning não passa por uma validação minuciosa de especialistas, e trabalhos aparentemente impressionantes podem, na prática, conter muitos erros

Conclusão e propostas

  • Reforça-se a importância da validação fundamental dos dados e da integração de conhecimento de domínio, mais do que do desenvolvimento de modelos de IA chamativos
  • Defende-se que os incentivos e o apoio à pesquisa sejam mais concentrados em estudos de validação substancial
  • Isso sugere que a verificação de erros e a melhoria da qualidade dos dados podem contribuir mais para o avanço da IA no longo prazo

1 comentários

 
GN⁺ 2025-06-04
Opiniões do Hacker News
  • Acho que as pessoas frequentemente esquecem que pode haver vazamento de dados. Deve-se sempre presumir que há vazamento até que exista evidência forte em contrário, e o ônus de provar que não houve vazamento deve recair sobre os autores. Em datasets pequenos, isso é ainda mais fácil de acontecer, porque justamente por ser possível examinar os dados de ponta a ponta, erros sutis acabam ocorrendo com mais facilidade. É extremamente comum um dataset ser corrompido por pequenos enganos. Agora estamos lidando com datasets gigantescos, tão grandes que nenhum ser humano consegue revisar tudo, e todos sabem que a filtragem é imperfeita, então não faz sentido acreditar que não houve vazamento. Dá para dizer que houve filtragem, mas não dá para afirmar de verdade que não houve vazamento. Mesmo nos datasets aos quais realmente temos acesso, encontramos problemas com frequência. Continuamos vendo isso acontecer, então não entendo por que seguimos presumindo que os dados estão íntegros. Talvez seja uma forma de autoengano movida por expectativa excessiva. Se quisermos corrigir o problema, precisamos enxergar a realidade com precisão

    • Todo sistema tem falhas. A verdadeira questão é quanto de falha estamos dispostos a aceitar. Por exemplo, houve 7,66% de casos de fraude no Medicare e no Medicaid; em valor absoluto isso é enorme, mas isso não significa que o sistema fracassou por completo, já que os outros 93% funcionaram corretamente. O mesmo vale para modelos de IA: se a taxa de erro é de 10%, isso não quer dizer que o sistema inteiro é ruim, e sim que precisamos discutir se esse nível é aceitável. Ver material de referência

    • Acho que a questão de onde está o ônus da prova não serve, na prática, como guia de crença da forma como muita gente imagina

  • Antes de a IA fazer pesquisa, ela primeiro precisa conseguir reproduzir com sucesso pesquisas já existentes. Por exemplo, se dermos um artigo de deep learning para a IA e pedirmos que ela o implemente, aí sim poderemos avaliar sua capacidade real. Sem esse básico, não há motivo para esperar ideias novas

    • No começo, achei que a proposta seria algo como “vamos dar só a primeira parte do artigo para a IA e deixar que ela complete o resto”. Se nem esse nível de verificação ainda funciona, então não vejo como a IA possa produzir descobertas inovadoras

    • A OpenAI criou um benchmark relacionado a isso: link do paperbench

    • É preciso ter um sistema de registro totalmente transparente e verificável, e garantir inclusive que o artigo nunca tenha sido exposto previamente ao dataset. Fraude acadêmica é rara, mas acontece de vez em quando, e LLMs podem gerar informações falsas sem qualquer hesitação

    • Como exemplo, talvez desse para fornecer à IA os dados estatísticos experimentais de um artigo e pedir que ela reproduzisse os dados brutos

    • Essa ideia não só é interessante, como talvez ajude a resolver em parte o problema da verificação de reprodutibilidade. Ainda assim, a pesquisa reproduzida por IA continuaria precisando de revisão humana cuidadosa. Na prática, já existem vários papéis úteis para os LLMs hoje, como ajudar na revisão por pares verificando código de tratamento de dados, auxiliando no levantamento bibliográfico e servindo para brainstorming de ideias

  • "Nature Communications" e "Nature" têm status completamente diferentes. Não faz sentido tratá-las como se fossem equivalentes. E altmetrics é uma métrica de pouca utilidade. A menos que você queira medir o nível de empolgação pública, isso tem pouca relação com citações científicas

  • Quando olho para a maioria dos artigos de deep learning, não vejo muitos casos em que especialistas do domínio validem os resultados com extremo rigor. Fico me perguntando quantos artigos que parecem impressionantes não passariam por uma verificação realmente rigorosa. Dito isso, na minha área, os artigos de IA de fato são lidos por mim e por muitos outros especialistas. Só que resultados em ciência da computação ou software parecem mais fáceis de verificar do que em biologia — ou talvez eu só tenha essa impressão porque não conheço tão bem bio

    • Em biologia, só validar a própria validade dos rótulos pode levar anos. O caso citado pelo OP foi, por acaso, um exemplo muito sortudo em que alguém já havia passado anos validando antecipadamente certos valores previstos. Na maioria das vezes, ninguém vai arriscar 3 a 5 anos da própria carreira para validar previsões aleatórias de um modelo

    • Na minha área, quando um artigo usa esse tipo de técnica, é comum que as pessoas o examinem em detalhe e façam críticas. O problema é que gente de outras áreas muitas vezes não leva essas críticas a sério

  • O que a IA precisa é de um subsistema de “checagem de realidade”. No caso dos LLMs, é como se eles ficassem despejando continuamente um ruído parecido com o falatório incessante do nosso inconsciente. Na prática, nosso cérebro tem um filtro interno do tipo “o que eu disse é uma verdade passível de falseamento?”, que barra mentiras. (Com a piada de que isso, claro, não funciona para todo mundo)

    • Concordo totalmente. Alguns meses atrás, tarde da noite, meio adormecido, percebi meu cérebro produzindo sem parar várias frases e pensamentos. Às vezes eu conseguia sentir vividamente tudo isso sendo filtrado e refinado até virar sentença. É uma experiência estranha e muito pessoal, mas me faz pensar que a IA também precisa muito de um algoritmo assim. Se eu fizer doutorado, gostaria de estudar isso como tema de pesquisa

    • O sistema humano de “checagem de realidade” se parece com o discriminador em GANs, mas é fortemente influenciado por emoções. Como mostram estudos em psicologia, o circuito humano que julga verdade e falsidade sempre começa por sinais emocionais, e sua raiz está nas crenças. Quando alguém diz algo que entra em forte conflito com minhas crenças, a reação emocional vem primeiro, e só depois entra o julgamento racional

  • Isso bate com a minha experiência como pesquisador usando LLMs. Fiquei profundamente impressionado com a capacidade deles de entender e gerar texto, mas sempre me decepciona ver a rapidez com que oferecem respostas para problemas muito mais difíceis e ainda não resolvidos. Perguntas complexas exigem tempo de reflexão, mas os LLMs tendem a responder com confiança — mesmo quando estão completamente errados — sem essa profundidade nem esse processo de ponderação

  • Achei este um ótimo artigo da Rachel Thomas. É mais um caso que reforça a tese de que deep learning acaba sendo uma ferramenta de recuperação de informação [generativa]. Os dados de treinamento refletem domínios do mundo real, mas em essência são datasets com perda muito alta. Por exemplo, dados/rótulos genéticos não representam perfeitamente a estrutura real da biologia, então os resultados também podem muitas vezes estar errados ou não fazer sentido. Quando tudo parece funcionar estranhamente bem, isso inclusive pode indicar vazamento de dados, dada a natureza dos LLMs como ferramentas de recuperação de informação por design. Do ponto de vista da teoria da informação, as limitações do dataset são um fator de risco desconhecido comum a todos os modelos. Em resumo, o problema não seria do algoritmo, mas do dataset de treinamento. No domínio da linguagem natural, funcionamos com enorme flexibilidade, e até uma criança consegue ler algo e julgar se faz sentido. O sucesso dos LLMs em NLP se apoia nesse tipo de dado. Já em áreas complexas em que os dados de origem não capturam fielmente a essência do fenômeno, as limitações são muito maiores

  • Há uma preocupação de que a desinformação esteja penetrando também na ciência. Critica-se que afirmações sensacionalistas sem fundamento estejam recebendo mais atenção do que pesquisa real bem sustentada, de um jeito parecido com o que já vemos nas redes sociais. Ainda assim, não dá para colocar Twitter e a revista Nature no mesmo nível, e sempre houve confiança de que periódicos prestigiados e o sistema de revisão por pares funcionavam como a “última linha de defesa” contra esse tipo de problema. Nesse caso, então, fica a dúvida se o que houve foi de fato uma falha da Nature

    • Vale lembrar que existem estatísticas mostrando que, quanto maior o impacto do periódico, maior também a taxa de retratações e de trabalhos não verificados. A causa de fundo desse problema é discutível, mas um único artigo não prova a verdade; o verdadeiro critério de confiança é quando várias instituições e diferentes equipes validam os resultados de forma independente

    • O problema da desinformação na ciência não começou agora; há anos já existe a controvérsia em torno da “crise de reprodutibilidade”

    • Casos como o artigo sobre ML Quantum Wormhole são frustrantes porque mostram que pesquisas erradas estão sendo publicadas não só em matérias de divulgação científica, mas também em periódicos de prestígio. Parece menos um erro pontual e mais um caso frequente em que pesquisadores e revisores deixaram de fazer a validação adequada. Pessoalmente, eu já era cético em relação ao sistema tradicional de periódicos e defendia uma publicação acadêmica mais livre, mas agora parece que os próprios periódicos estão corroendo a própria credibilidade. O que mais me preocupa, porém, é que isso acabe contribuindo para piorar a confiança pública na ciência. É difícil para o público perceber debates sutis internos à ciência, e situações assim só fornecem mais munição para os grupos anticiência

    • Isso me lembra o princípio da assimetria da bobagem (lei de Brandolini): link para o princípio

  • Temos a tendência de divulgar de forma dramática um único caso de sucesso bonito em ML/IA e ignorar dezenas de tentativas que fracassaram

    • Indo além, parece que também adoramos o “deep stochastic parroting”. Ignora-se a experiência direta, o acúmulo consistente de evidências e o raciocínio lógico, enquanto se tenta negar deliberadamente a utilidade evidente dos LLMs. E essa posição de negação vem sempre acompanhada dos mesmos chavões previsíveis como justificativa