O que aprendi ao cair no exagero sobre IA para ciência

(understandingai.org)

3 pontos por GN⁺ 2025-05-21 | 1 comentários | Compartilhar no WhatsApp

O autor, que pesquisava física de plasmas em Princeton, mudou de direção em 2018 ao ver que a IA poderia acelerar a pesquisa em física, mas na prática a IA para resolver PDEs era muito mais frágil do que o esperado
As PINNs pareciam uma abordagem simples e geral, mas bastava alterar um pouco exemplos fáceis para que ficasse difícil obter soluções corretas, e nem com ajuste fino se conseguia garantir estabilidade
Ao revisar 76 artigos sobre PDEs de dinâmica dos fluidos, entre os trabalhos que afirmavam ser melhores que a análise numérica padrão, 60 artigos, ou 79%, usavam baselines fracos, e os grandes ganhos de velocidade dependiam de comparações injustas
O uso de IA na ciência cresceu de 2% em 2015 para quase 8% em 2022, mas esse aumento pode estar mais ligado a incentivos de citação, carreira e captação de recursos do que à própria ciência
A IA pode trazer resultados em dobramento de proteínas, previsão do tempo e descoberta de fármacos, mas a tese geral de que acelera a ciência de forma revolucionária deve ser vista com cautela por causa de viés de sobrevivência, vazamento de dados, baselines fracos e cherry-picking

Por que mudei da física de plasmas para a IA

Em 2018, no segundo ano do doutorado em física de plasmas em Princeton, o autor mudou o foco da pesquisa para machine learning
- Não havia um projeto específico, mas ele acreditava que acelerar a pesquisa em física com IA poderia gerar um impacto maior
- Ele também admite que os altos salários da área de IA foram uma motivação
Depois disso, passou a estudar o problema de resolver equações diferenciais parciais (PDEs) com IA, que Yann LeCun chamou de “pretty hot topic”
PDEs são equações matemáticas que modelam sistemas físicos e são importantes em física computacional e simulações de engenharia
- O laboratório do autor usava PDEs para modelar o comportamento do plasma dentro de reatores de fusão nuclear e do meio interestelar
Os modelos de IA usados para resolver PDEs são modelos de deep learning sob medida, mais próximos do AlphaFold do que do ChatGPT

A fragilidade revelada nos experimentos com PINN

O primeiro método tentado foi a physics-informed neural network (PINN)
- Em vez de representar a solução da PDE como uma grade de pixels, a PINN representa a solução com uma rede neural e incorpora a equação na função de perda
- O artigo original sobre PINN afirmava ter mostrado eficácia em problemas clássicos de fluidos, mecânica quântica, sistemas de reação-difusão e ondas não lineares em águas rasas, e já era citado centenas de vezes
Parecia um método geral simples e elegante, mas os experimentos reais foram diferentes do esperado
- Ao trocar um dos exemplos do primeiro artigo influente, 1D Burgers’, por outra PDE simples, 1D Vlasov, não saía uma solução que parecesse correta
- Depois de muito ajuste fino, foi possível obter um resultado plausível, mas em PDEs um pouco mais complexas como 1D Vlasov-Poisson não foi possível obter uma solução razoável
- Um amigo de outra universidade também relatou que não conseguiu bons resultados com PINN
Os próprios autores do artigo original de PINN aparentemente observaram que uma configuração específica podia gerar resultados impressionantes para uma equação e falhar em outra
- No entanto, o artigo não mostra casos de falha das PINNs
- O próprio autor também não publicou seus experimentos fracassados em artigo, apresentando-os apenas em um pôster de conferência pouco conhecido

As lições deixadas pelas PINNs e a avaliação atual

A primeira lição foi que não se deve aceitar resultados de pesquisa em IA pelo valor de face
- A maioria dos cientistas não está tentando enganar ninguém, mas os incentivos para mostrar resultados favoráveis são fortes, o que pode induzir o leitor ao erro
- Ele passou a achar que, quanto mais impactante for um artigo com resultados impressionantes, mais ceticismo ele merece
A segunda lição é que quase não se publicam casos em que métodos de IA falham
- Levou dois anos até surgir um artigo tratando dos modos de falha das PINNs, e esse artigo hoje tem mais de 1.000 citações
- Isso sugere que muitos pesquisadores provavelmente enfrentaram problemas parecidos com PINNs
A terceira conclusão é que PINN não era uma abordagem que o autor quisesse usar
- As PINNs eram simples e elegantes, mas foram avaliadas como instáveis demais, trabalhosas e lentas
O artigo original sobre PINN, seis anos depois, acumula hoje 14.000 citações
- Segundo o autor, é o artigo de análise numérica mais citado do século XXI e deve se tornar o segundo mais citado de toda a área em 1 ou 2 anos
No problema de resolver PDEs diretamente, já é amplamente aceito que PINNs em geral não são competitivas com métodos padrão de análise numérica, mas o desempenho em problemas inversos (inverse problems) ainda é tema de debate
- Defensores afirmam que as PINNs são particularmente eficazes em problemas inversos
- Alguns pesquisadores contestam essa ideia com força
- O autor não sabe qual lado está certo e considera possível que, no futuro, as PINNs sejam vistas como uma grande bolha de citações

O otimismo excessivo criado por baselines fracos

Na tese de doutorado, ele se concentrou em modelos de deep learning que tratam soluções de PDE como conjuntos de pixels em grades ou grafos, como fazem os solucionadores tradicionais
- Essa abordagem parecia mais promissora do que PINNs para as PDEs complexas e dependentes do tempo de interesse do laboratório
- Vários artigos afirmavam resolver PDEs ordens de magnitude mais rápido do que métodos padrão de análise numérica
Os casos de PDEs de dinâmica dos fluidos, especialmente as equações de Navier-Stokes, animaram o autor e seu orientador
- As equações que descrevem o plasma em reatores de fusão também têm estrutura matemática semelhante, o que fazia parecer plausível um ganho de velocidade parecido
- Em teoria, isso permitiria simular sistemas maiores, otimizar projetos mais rapidamente e acelerar a pesquisa
Mas confiabilidade e robustez dos modelos de IA podiam ser um problema sério
- Se uma simulação mais rápida for menos confiável, era preciso verificar se essa troca realmente valia a pena
- As tentativas de tornar os modelos mais confiáveis em sua maioria fracassaram, levando o autor a duvidar da própria promessa da IA para acelerar PDEs
Artigos de alto perfil afirmavam que a IA resolvia as equações de Navier-Stokes ordens de magnitude mais rápido do que métodos padrão, mas o baseline não era o método numérico mais rápido disponível
- Quando comparada com métodos numéricos mais avançados, a IA não era mais rápida ou, no máximo, era só um pouco mais rápida

Resultado da revisão de 76 artigos: 79% usavam baselines fracos

O autor e seu orientador publicaram um artigo após revisar de forma sistemática pesquisas que usam IA para resolver PDEs de dinâmica dos fluidos
Entre 76 artigos que afirmavam superar métodos padrão de análise numérica, 60 artigos, ou 79%, usavam baselines fracos
- Ou não comparavam com métodos numéricos mais avançados
- Ou não faziam a comparação nas mesmas condições
Proporção de baselines fracos: {p:79}
Todos os artigos com grandes ganhos de velocidade comparavam contra baselines fracos
- Quanto mais impressionante parecia o resultado, maior parecia a chance de a comparação ser injusta
A revisão também confirmou novamente o viés de relato (reporting bias)
- Pesquisadores tendem a não relatar bem resultados negativos
- Baselines fracos produzem resultados excessivamente positivos, e o viés de relato leva à subnotificação dos resultados negativos
Esse artigo desencadeou debate em torno da IA na ciência e engenharia computacional
- Lorena Barba viu os resultados como evidência de apoio às preocupações com o hype da IA e o otimismo anticientífico
- Stephan Hoyer, do Google Research, avaliou o texto como um bom resumo do motivo pelo qual saiu de AI for PDEs para previsão do tempo e modelagem climática
- Johannes Brandstetter rebateu dizendo que a IA pode produzir resultados melhores em aplicações industriais mais complexas e que o futuro da área ainda é promissor

Que tipo de validação é necessária na área de PDEs

A IA pode algum dia se tornar útil em aplicações específicas relacionadas à resolução de PDEs
Por enquanto, porém, não há muitos motivos para otimismo
- Métodos de IA não têm as garantias teóricas dos métodos padrão de análise numérica
- Também carecem de robustez validada empiricamente
Há duas direções que exigem mais esforço
- Pesquisa voltada a alcançar um nível de confiabilidade comparável ao dos métodos numéricos
- Red teaming para testar de forma agressiva os métodos de IA
Agências de fomento precisam incentivar cientistas a criar problemas-desafio para PDEs
- O torneio bienal CASP, que por 30 anos ajudou a alinhar e concentrar a pesquisa em dobramento de proteínas, é apresentado como modelo possível

Casos reais em que a IA acelerou a ciência, e seus limites

O dobramento de proteínas é o caso mais representativo de inovação científica baseada em IA
- Ele é tratado como exemplo ligado ao comunicado do Nobel de Química de 2024
Há também outros casos de sucesso
- Previsão do tempo: previsões com IA alcançaram até 20% mais precisão do que previsões tradicionais baseadas em física, mas a resolução ainda é baixa
- Descoberta de fármacos: dados preliminares mostram que fármacos descobertos com IA tiveram mais sucesso na fase 1 clínica, mas não na fase 2
- Se essa tendência se mantiver, a taxa total de sucesso até a aprovação do medicamento pode quase dobrar
Empresas de IA, academia, órgãos governamentais e a imprensa têm cada vez mais apresentado a IA não só como ferramenta científica útil, mas como tecnologia capaz de ter “transformational impact” na ciência
Os LLMs atuais, nas palavras da DeepMind, ainda têm dificuldade com a criatividade e o raciocínio mais profundos dos quais os cientistas humanos dependem
Se sistemas de IA hipotéticos e muito mais avançados um dia conseguirem automatizar completamente o processo científico, isso transformaria e aceleraria a ciência, mas o autor não espera que isso aconteça tão cedo, nem tem certeza de que acontecerá de fato

Por que cientistas adotam IA

É difícil concluir que a IA é útil para a ciência apenas com base no aumento de seu uso no meio científico
A razão pela qual cientistas migram para IA pode ser porque isso beneficia mais os próprios cientistas do que a ciência
- O autor também acreditava sinceramente, em 2018, que a IA poderia ser útil para a física de plasmas, mas altos salários, boas perspectivas de emprego e prestígio acadêmico eram motivações importantes
- Segundo ele, a alta gestão dos institutos muitas vezes parecia mais interessada no potencial de captação de recursos da IA do que em considerações técnicas
Pesquisas posteriores sugerem que cientistas que usam IA têm mais chance de publicar artigos altamente citados e recebem, em média, 3 vezes mais citações
Mesmo quando a IA produz resultados impressionantes dentro da ciência, isso não significa automaticamente que tenha feito algo útil para a ciência
- Em muitos casos, ela pode apenas ter demonstrado um potencial que talvez venha a ser útil mais tarde
Cientistas que pesquisam IA muitas vezes trabalham ao contrário: em vez de procurar um problema e depois uma solução, assumem antes que a IA é a solução e passam a procurar um problema para ela resolver
- Essa abordagem de “hammer in search of a nail” pode levar a problemas já resolvidos ou a problemas que não produzem novo conhecimento científico

Viés de sobrevivência e crise de reprodutibilidade

Para avaliar o sucesso da AI-for-science, seria preciso olhar para a ciência real, mas é difícil confiar apenas na literatura científica
O primeiro problema é o viés de sobrevivência (survivorship bias)
- Há avaliações de que quase não se publicam resultados negativos em pesquisa de IA
- Se os casos de fracasso ficam de fora, qualquer tentativa de avaliar o impacto da IA na ciência fica distorcida
Isso se parece com problemas já conhecidos da crise de replicação
- Quando resultados estatisticamente não significativos são filtrados para fora da literatura, tende-se a superestimar efeitos como o de tratamentos
- Descontinuidades abruptas na distribuição de valores-z em torno de -1,96 e 1,96 em pesquisas médicas sugerem que resultados abaixo do limiar de significância não foram publicados ou que os dados foram ajustados
Em AI-for-science, o critério de seleção não é significância estatística, mas algo mais próximo de mostrar que o método proposto venceu outras abordagens ou realizou uma nova tarefa com sucesso
- Assim, casos bem-sucedidos de IA são relatados com frequência, enquanto resultados malsucedidos quase não são publicados
Arvind Narayanan e Sayash Kapoor, de Princeton, reuniram uma lista de erros metodológicos de vazamento de dados (data leakage) em 648 artigos de 30 áreas
- Em cada caso, o vazamento de dados levou a resultados excessivamente otimistas
- Eles veem a ciência baseada em IA como enfrentando uma crise de reprodutibilidade

Quatro armadilhas que produzem otimismo excessivo

Mesmo os casos de sucesso publicados podem levar a conclusões que superestimam o potencial científico da IA
Embora os detalhes e a gravidade variem entre áreas, as principais armadilhas podem ser agrupadas em quatro categorias
- Vazamento de dados
  - Quando dados de treino e avaliação se misturam de forma incorreta, o desempenho do modelo parece melhor do que realmente é
- Baselines fracos
  - Se a IA for comparada não com os métodos numéricos mais modernos, mas com um alvo de comparação fraco, a diferença de desempenho fica exagerada
- Cherry-picking
  - Se apenas configurações bem-sucedidas forem mostradas, os modos de falha e os limites de aplicação desaparecem da literatura
- Relato incorreto
  - Continua sendo um problema central o conflito de interesses de quem avalia modelos de IA e também se beneficia dessa avaliação
  - A DeepMind afirmou em 2023 ter descoberto 2,2 milhões de estruturas cristalinas e ampliado em uma ordem de grandeza o conjunto de materiais estáveis conhecidos pela humanidade
  - Depois, cientistas de materiais analisaram esses compostos e os avaliaram como “mostly junk”, sugerindo educadamente que o artigo não relatava novos materiais
  - O artigo de Aidan Toner-Rodgers, pós-graduando do MIT, sobre descoberta de novos materiais com IA entrou como caso de sucesso em uma versão preliminar, mas foi removido depois que o MIT anunciou que buscaria sua retirada por preocupações com integridade em pesquisa
  - Suspeitas claras de fraude são diferentes dos problemas metodológicos mais sutis tratados no texto, mas o fato de esse artigo ter recebido enorme atenção da imprensa mostra os vários incentivos para exagerar a eficácia de técnicas de IA

Conclusão: mais uma ferramenta incremental e desigual do que uma revolução

O uso de IA na pesquisa científica está crescendo rapidamente
- A participação de publicações científicas que usam IA subiu de 2% em 2015 para quase 8% em 2022
- Taxa de uso de IA: {l:2,8}
- A adoção cresce rapidamente não só em ciência da computação, mas também em física, química, biologia, medicina e ciências sociais
É possível reconhecer que a IA pode produzir avanços científicos
- A preocupação está na escala e na frequência desses avanços
- Ainda é incerto se ela de fato demonstrou potencial suficiente para justificar uma grande migração de talentos, formação, tempo e recursos para um único paradigma
Como cada área científica vive a IA de forma diferente, é preciso cuidado ao generalizar
Ainda assim, três lições tiradas da experiência do autor podem se aplicar a muitas áreas
- O aumento da adoção de IA ocorre em parte porque ela beneficia mais os cientistas do que a própria ciência
- Como quase não se publicam resultados negativos, a AI-for-science sofre de viés de sobrevivência
- Os resultados positivos publicados tendem a alimentar um otimismo excessivo sobre o potencial da IA
Não se sabe se a IA conseguirá reverter a queda de produtividade científica e a estagnação do progresso da ciência
- A menos que haja um grande avanço em IA avançada, a IA provavelmente estará mais próxima de ser uma ferramenta comum para um progresso científico incremental e desigual do que uma ferramenta revolucionária

1 comentários

GN⁺ 2025-05-21

Opiniões no Hacker News

Texto interessante. Sempre existe o risco de uma técnica emergente receber atenção exagerada em relação ao seu valor real
A frase central do texto é: “a maioria dos cientistas não está tentando enganar ninguém, mas, como há fortes incentivos para mostrar resultados favoráveis, ainda existe o risco de o leitor ser enganado”. Entender dentro de qual estrutura de incentivos as pessoas falam costuma ajudar bastante na hora de interpretar o que elas dizem
- Há pessoas que perceberam que, se colocarem a palavra AI, podem ganhar muito dinheiro e receber financiamento para pesquisa. Mas, no fim, acho que qualquer software acaba tendo algum grau de machine learning, não há nada de novo nisso, e as implementações atuais também não são especialmente incríveis nem precisas
Isso parece, em grande parte, repetir problemas já existentes no meio acadêmico. Não se trata mais de buscar a verdade, mas de focar em número de citações e carreirismo; AI é apenas mais um tema em que isso acontece
- Não quero generalizar, mas, ao circular por vários centros de HPC na Alemanha, vejo um padrão em que muitas pessoas vindas da física acabam se concentrando ali, e uma parte considerável do financiamento para pesquisa em AI é absorvida por elas. Como resultado, surgem muitos projetos ML4Science
  Pessoalmente, acho uma pena. Centros de HPC não existem só para físicos e, especialmente na Alemanha, se há verbas para pesquisa em AI, acho que deveríamos fazer mais pesquisa fundamental em AI
- Para ser justo, vejo o problema do carreirismo mais como um efeito colateral de a academia ter se encantado mais com o setor privado e herdado também esse problema
  Se aprendi uma coisa trabalhando como desenvolvedor de software, é que todas as decisões são tomadas de um ponto de vista carreirista e egoísta. Importa menos o que é melhor e mais o que causa mais impressão e faz a pessoa avançar. Quando o trabalho termina, aquilo deixa de ser problema dela e, na verdade, é difícil culpar alguém por isso. Esse modo de pensar é tão disseminado que, se você não participa, vira trouxa. Os outros vão fazer isso e, no fim, vão passar à sua frente. O resultado é o mesmo, mas só você fica em desvantagem
- Não sei em que sentido essa história pode ser interpretada como “não se trata mais de buscar a verdade”. Pelo contrário, não é um caso bem claro de alguém que buscou e encontrou a verdade?
- Eu realmente não entendo por que o “mais” entra aí
Tive a sorte de poder testar alguns analisadores estruturais semelhantes a FEM baseados em AI
Mesmo no melhor dos casos, em problemas lineares e de pequenas deformações, eles são apenas razoáveis. É o tipo de coisa em que você obtém em cerca de 30 segundos uma solução bem aproximada para um modelo cuja solução próxima da exata sairia em uns 5 minutos. Quando se começam a adicionar elementos não lineares, simplesmente desmorona
Talvez baste para escolhas conceituais de nível bem alto, mas nem para isso é tão bom. Tenho bastante certeza de que alguns são basicamente detectores de curvatura. Linhas retas ficam azuis, regiões com muita curvatura ficam vermelhas, e o resto é interpolado
- Será que esses modelos poderiam ser usados como pré-processadores de um método iterativo?
- Nesse caso, parece mais próximo de um analisador de “segundos princípios”. É uma estrutura que não consegue sintetizar aquilo que nunca viu antes
Não sou nem um pouco defensor de AI, mas o problema de resultados negativos não serem publicados e de todo mundo exagerar seus resultados em artigos de pesquisa, infelizmente, não se limita à AI. É consequência da forma como cientistas são avaliados e da indústria de publicações científicas, que anseia por audience como a mídia tradicional
De todo modo, o inverno não está chegando?
- Sim, não é um problema exclusivo da AI. Mas, em artigos de AI, é comum ver frases que na prática significam: “se colocarmos 1 trilhão de GPUs e deixarmos rodando para sempre, obtemos {benchmark mágico}”. Ou algo como: “se avaliarmos no nosso conjunto de dados ultrassecreto do mundo real, que afirmamos disponibilizar mediante solicitação, mas vamos ignorar quando alguém pedir de fato, você verá um gráfico que mostra como somos inteligentes”
  Claro, muitas vezes são artigos para marcar território, mas, quando esses artigos vêm de grandes empresas, não dá simplesmente para ignorá-los e seguir em frente, mesmo com falhas evidentes
  No fim, é uma competição por recursos. Como ex-pesquisador de uma universidade com orçamento pequeno, nós não conseguimos competir. Somos praticamente obrigados a acreditar em números transmitidos na literatura como “benchmarks”, sem reprodutibilidade
- Publiquei meus primeiros artigos sobre aplicações práticas de AI há pouco mais de 15 anos, depois mudei para outra área e recentemente fui puxado de volta
  Concordo que é um problema da ciência como um todo, mas AI parece atrair uma quantidade incomum de pesquisadores atrás de fama e dinheiro. Pela minha experiência limitada, as alegações exageradas e o cherry-picking de dados parecem mais extremos, e até pesquisadores responsáveis acabam exagerando um pouco para conseguir competir
- AI é o atual ímã de hype superaquecido, então as rachaduras aparecem com mais nitidez
- Mas AI torna mais fácil escrever artigos que parecem plausíveis
Não entendo bem por que, em lugares como o HN, as pessoas ficam tão divididas na percepção sobre AI/ML
Nunca tinha visto algo assim antes. Praticamente não existia um sistema ou método capaz de fazer coisas como gerar código com base em entrada de texto
Na semana passada, pedi um script de segmentação de imagens com uma UI básica e o Claude fez em menos de 1 minuto
Dá para citar um monte de exemplos que seriam chamados de inovadores. Toda a stack de geração de imagens é completamente nova
Este post de blog é bastante justo, e é verdade que há superaquecimento nesse tema. Mas, olhando apenas para qualquer pesquisador que precise escrever código para pesquisa, a AI já consegue torná-lo muito mais eficiente
Além disso, acho que entramos em uma nova era. Uma era em que voltamos a tratar os dados com muita seriedade. Alguns anos atrás diziam que “a internet não esquece”, mas logo percebemos que a internet também começaria a esquecer. O Google apagou páginas, removeu a função de cache, e dava a impressão de que já não se importava mais porque não sabia como usar os dados
Então a AI apareceu, e os dados não só voltaram a ser reis como agora estamos bem no meio da era do reforço. Quando você dá feedback, o sistema incorpora esse feedback ao aprendizado
O tema AI/ML está sendo abordado em todos os aspectos: hardware, algoritmos, casos de uso, dados, ferramentas, protocolos etc. Estamos integrando isso, construindo para isso e em cima disso; é só uma questão de tempo. Mesmo assim, o ritmo de progresso é absurdamente vertiginoso
Só vamos saber daqui a alguns anos se existe mesmo um teto. Para fazer muito mais experimentos com arquiteturas e algoritmos de AI, precisamos de mais GPUs e data centers maiores. O gargalo é claro. Até grandes empresas treinam um único modelo grande por semanas ou meses
- A parte “na semana passada, pedi um script de segmentação de imagens com uma UI básica e o Claude fez em menos de 1 minuto” nos parece mais próxima de copiar e colar do Stack Overflow de um jeito elegante. Por isso soa como “perguntei ao Google por restaurantes próximos e ele encontrou em 500 ms. Meu C64 não fazia isso”
  É impressionante e de fato útil. Mas soa como se tivesse “aprendido a explorar o mundo real e, portanto, conseguisse resolver todos os problemas relacionados”, quando na prática o que resolveu foi “fazer uma busca elegante em um banco de dados GIS”. Quando a novidade passa, a gente começa a ver a coisa real em vez do que imaginava
  Para deixar o ponto mais claro, o que você imagina ao dizer “o Claude gerou” é que a AI “pensou”, criou uma ontologia e raciocinou sobre ela até chegar à conclusão de que este script era a saída correta. O que de fato aconteceu é que a entrada estava correlacionada a essa saída de acordo com padrões vistos em trilhões de exemplos. Não há ontologia nem raciocínio. Claro que ainda é impressionante e muito útil, mas, com o tempo, o encanto vai desaparecer. Os limites já são claros
- Sobre “não entendo por que, em lugares como o HN, as pessoas ficam tão divididas na percepção sobre AI/ML”, é porque, do ponto de vista de cada um, todos são agentes racionais. Tanto quem promove a AI quanto quem reduz o hype têm razões válidas
  Há motivos para ver essa nova tecnologia como revolucionária, e também motivos para ficar atento ao roubo de dados em larga escala e ao desprezo pela privacidade
  Primeiro é preciso reconhecer e respeitar que há opiniões diversas sobre qualquer assunto. Tire a si mesmo da equação por um momento e entenda o outro lado. Entenda de verdade
  É preciso caminhar bastante usando os sapatos de outra pessoa
- Sobre a afirmação de que “olhando apenas para qualquer pesquisador que precise escrever código para pesquisa, a AI já consegue torná-lo muito mais eficiente”, o que um cientista precisa não é eficiência, mas correção. Bugs de software já eram uma grande causa de erros científicos e de falta de reprodutibilidade; por exemplo, há este caso: https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  A qualidade da programação em ambientes de pesquisa é notoriamente irregular, assim como na indústria, mas na pesquisa um erro pequeno pode arruinar os resultados de todo um estudo. Em um ambiente como um laboratório, não dá para escrever software como um pintor impressionista, ou como a versão AI disso. Você precisa realmente saber o que está digitando
  Se você não se importa se está correto, a AI pode torná-lo mais eficiente. Pode ser ótima para criar imagens de um evento de vôlei de praia no verão, mas usá-la para escrever código em um ambiente científico é uma ideia desastrosa
- Por outro lado, a narrativa de que “a AI vai revolucionar a ciência” parece estar muito à frente do nível sustentado pelas evidências
- O HN sempre fica dividido sobre “quanto da tecnologia atualmente em hype é real e quanto é exagero”
  Já vi isso acontecer várias vezes e, dependendo da tecnologia e do momento, já estive em lados diferentes
  Para mim, parece a mesma cena de sempre
No início, o texto parece sugerir que a IA na ciência em geral, ou pelo menos a IA na área do autor, é toda exagero. Mas a insatisfação parece estar voltada para uma arquitetura específica chamada PINN e, no fim, ele também diz que usou com sucesso outros modelos de deep learning para calcular PDEs mais rapidamente do que métodos numéricos tradicionais
- É um problema muito mais amplo do que PINNs. Já se sabe amplamente há muito tempo que PINNs são ruins. Mas o fracasso geral do uso de machine learning em problemas de física é muito mais disseminado
  O machine learning costuma brilhar quando há bastante dado experimental para um domínio relativamente estreito. Os potenciais interatômicos de machine learning, existentes desde os anos 1990, são um exemplo disso. Modelagem do tempo talvez também seja, mas não quero comentar sobre essa área. Ou então quando há uma quantidade absurda de dados e se treina um modelo realmente gigantesco. É isso que chamamos de IA. Esse também é basicamente o motivo do sucesso do AlphaFold, e o AlphaFold também não produz bons resultados quando recebe uma entrada muito distante de qualquer ponto dos dados de treinamento
  Mas a maior parte do machine learning para problemas de física fica em algum lugar no meio disso. Faltam dados experimentais, e os dados de simulação são caros demais para gerar em quantidade suficiente. Os modelos também não são grandes o bastante, porque, se forem grandes demais, a inferência fica lenta de qualquer forma. E, mesmo assim, espera-se que esses modelos aprendam uma faixa muito ampla de física
  Depois disso, todo mundo entra no trem do hype. Porque é fácil demais tentar. Todo mundo obtém os mesmos resultados ruins, mas publica mesmo assim. Se o laboratório ou o PI for famoso o bastante, ou se o problema for formulado de um jeito único e com aparência científica/matemática, dá para sair em uma boa revista ou conferência e receber muitas citações. Mas, no fim, o resultado é o mesmo. Reproduz um pouco os dados de treinamento e conclui que o problema de generalização precisa ser estudado melhor por alguém
- O autor publicou um artigo inteiro oferecendo uma análise sistemática de vários modelos. Há até uma seção separada sobre isso. Portanto, não é uma história só sobre PINNs
- Mesmo que você substitua PINN por alguma solução de “IA”, ela ainda estará exagerada
  Até agora, a única avaliação realista da “IA” é admitir que ela só é útil para um especialista pular um pouco de trabalho tedioso, e que a saída precisa ser verificada três vezes
A parte “depois de semanas fracassando, mandei mensagem para um amigo de outra universidade, e ele disse que também tinha tentado usar PINNs, mas não tinha obtido bons resultados” não tem relação direta com IA, mas me lembra uma lição que aprendi tarde demais ao fazer pesquisa na universidade. Colaboração contínua é importante. Ela ajuda a evitar pisar de novo em áreas onde outras pessoas já fracassaram
- Talvez isso também possa ser visto como a necessidade de pesquisadores publicarem experimentos malsucedidos
- É mais um motivo pelo qual a ideia de agentes de IA para ciência nunca me pareceu fazer muito sentido. Pesquisa é um conjunto de atividades extremamente colaborativas. Quão bom pode ser um pesquisador que faz uma revisão de literatura muito bem, mas não conversa de verdade com ninguém nem vai a conferências?
A análise é excelente, e os exemplos são precisos. Outro problema da pesquisa relacionada a IA é que uma boa parte dos artigos nem é tão nova e muitos nem foram publicados em lugares “adequados”, mas, só olhando o Google Scholar, continuam sendo citados por toda parte
É difícil reproduzir os resultados e verificar a validade de algumas afirmações, e há também o fato de que um estudo de 4 anos atrás usava um conjunto de modelos, enquanto os testes atuais usam outro conjunto de modelos com outros dados de treinamento. Fica difícil estabelecer o que realmente afeta os resultados e se as conclusões se aplicam apenas a propriedades específicas de modelos antigos ou se são generalizáveis
- Não sou cientista nem pesquisador, mas qualquer coisa baseada em estatística e interpretação de dados me deixa imediatamente desconfiado
O título mudou, ou eu estou começando a ter alucinações?
O título é “I got fooled by AI-for-science hype—here's what it taught me”
- Mudou mesmo. Pessoalmente, acho que ficou pior. Foi alterado em relação ao título original
  Aqui deveríamos preferir o título original, a menos que haja um problema sério
  Esse título original não tinha nenhum problema sério. A menos que resumir com precisão uma crítica cuidadosa, feita por um doutorando, a contribuições duvidosas da IA para a pesquisa científica seja um problema sério
- Não é alucinação: https://web.archive.org/web/20250520152757/https://news.ycom...
Este texto parece menos um texto sobre IA e mais uma história sobre desenvolver uma das funções menos comentadas do doutorado: a capacidade de ler afirmações acadêmicas
As afirmações nos artigos não são surpreendentes. Elas são um produto natural da estrutura de incentivos misturada que, com o tempo, passamos a chamar de “ciência”. Colocar a produção da ciência no contexto correto e entender que um “artigo” é produto de um sistema sociotécnico, com toda a complexidade que isso implica, é algo que exige tempo e prática

O que aprendi ao cair no exagero sobre IA para ciência

Por que mudei da física de plasmas para a IA

A fragilidade revelada nos experimentos com PINN

As lições deixadas pelas PINNs e a avaliação atual

O otimismo excessivo criado por baselines fracos

Resultado da revisão de 76 artigos: 79% usavam baselines fracos

Que tipo de validação é necessária na área de PDEs

Casos reais em que a IA acelerou a ciência, e seus limites

Por que cientistas adotam IA

Viés de sobrevivência e crise de reprodutibilidade

Quatro armadilhas que produzem otimismo excessivo

Vazamento de dados

Baselines fracos

Cherry-picking

Relato incorreto

Conclusão: mais uma ferramenta incremental e desigual do que uma revolução

Leituras relacionadas

1 comentários

Opiniões no Hacker News