- Ao contrário das expectativas sobre o uso de IA na pesquisa em física de plasma, os resultados práticos reais se concentraram em desempenhos exagerados e limitações
- Métodos de resolução de PDE (equações diferenciais parciais) com IA, como PINN, não demonstraram uma vantagem clara sobre métodos numéricos tradicionais em termos de confiabilidade e desempenho
- Por causa de baselines fracos (weak baselines) e de viés de publicação, a maior parte dos artigos sobre resultados de IA apresenta avaliações excessivamente positivas em relação à realidade
- Embora o uso científico da IA esteja crescendo rapidamente, é mais plausível que ela faça contribuições graduais e limitadas do que atue como uma ferramenta líder de inovação no avanço científico
- Devido à estrutura dos artigos científicos e aos incentivos dados aos pesquisadores, repetem-se a não divulgação de casos de fracasso e relatos exagerados, reforçando a necessidade de uma postura essencialmente cética ao avaliar o impacto científico da IA
Introdução e contexto da pesquisa
- O autor, Nick McGreivy, após obter um doutorado em física de plasma em Princeton, migrou para pesquisas com aprendizado de máquina motivado pela expectativa de que a IA pudesse contribuir para revolucionar a pesquisa científica, especialmente na física
- Ele se interessou por saber se a IA poderia transformar de forma radical toda a ciência, como tecnologias de uso geral como eletrônica, internet e circuitos integrados
- Na prática, porém, ao pesquisar o uso de IA para resolver PDEs (equações diferenciais parciais), ele encontrou resultados abaixo do esperado quando comparados ao desempenho divulgado em artigos famosos
Experiência com a aplicação de PINN (Physics-Informed Neural Network)
- Na área de resolução de PDEs com IA, o PINN emergiu rapidamente como um método representativo, e o autor também testou essa abordagem de forma experimental
- Artigos anteriores relatavam que o PINN oferecia soluções eficazes para problemas de PDE em várias áreas, como fluidos clássicos, mecânica quântica e sistemas de reação-difusão, mas na prática ele observou resultados instáveis ou com confiabilidade muito baixa até mesmo em PDEs muito simples (como Vlasov 1D)
- Melhorias com ajustes simples eram difíceis, e em PDEs mais complexas (como Vlasov-Poisson 1D) ele não conseguiu sequer obter uma solução adequada
- Pesquisadores próximos também passaram por fracassos semelhantes, mas esses resultados negativos quase nunca são publicados em artigos
Lições aprendidas com os experimentos com PINN
- Até mesmo autores de artigos seminais e influentes reconheciam que o PINN falhava em determinadas configurações, mas divulgavam apenas os resultados mais convincentes
- No ecossistema de artigos científicos, a prática de relatar principalmente resultados positivos e de não publicar experimentos fracassados relacionados à IA aprofunda o viés de sobrevivência (survivorship bias)
- O método PINN é um conceito numericamente elegante, mas o autor compartilha que desistiu de adotá-lo por causa de limitações práticas como instabilidade, dificuldade de ajuste fino e redução de velocidade de processamento
- O artigo original recebeu mais de 14.000 citações e é o trabalho mais citado da área de métodos numéricos, mas, na resolução real de PDEs, não apresenta vantagem competitiva em relação aos métodos existentes
- Mais recentemente, também há alegações de que o PINN pode funcionar bem em áreas específicas, como problemas inversos (inverse problems), mas existe debate entre pesquisadores sobre isso
Otimismo excessivo provocado por critérios de comparação inadequados
- Depois disso, o autor tentou abordagens de deep learning que, assim como técnicas numéricas tradicionais, tratam a solução de PDEs como um conjunto de grades ou pixels de grafos
- Muitos artigos afirmavam que a IA resolvia PDEs até milhares ou dezenas de milhares de vezes mais rápido do que os métodos existentes, mas na maioria dos casos o baseline usado para comparação era fraco
- A análise de um artigo representativo mostrou que, entre 76 trabalhos em que se dizia que a IA tinha vantagem, 60 (79%) não faziam uma comparação justa com métodos numéricos tradicionais suficientemente bons
- Esses critérios de comparação fracos e a não divulgação de resultados negativos confirmam uma tendência de exagerar a avaliação de que a “IA traz resultados revolucionários”
- Esses achados geraram controvérsia na academia e na indústria: alguns defendem direções futuras de pesquisa e o fortalecimento do potencial da IA, enquanto outros expressam maior cautela diante do problema atual de supervalorização
O papel e os limites da IA na ciência
- Entre os exemplos mais conhecidos de sucesso estão a previsão do dobramento de proteínas pelo AlphaFold, a previsão do tempo (com melhora de até 20% na precisão) e o desenvolvimento de medicamentos (com aumento na taxa de sucesso da fase 1 clínica), mas, mais do que uma inovação ampla, tratam-se sobretudo de avanços complementares e graduais em relação às tecnologias existentes
- Big techs globais, a mídia e o meio acadêmico frequentemente apresentam a IA como uma “ferramenta revolucionária para a ciência” ou até como o agente transformador que mudará o paradigma científico, mas há limites claros para o grau de inovação essencial que a IA atual consegue entregar
Motivações para adotar IA e problemas estruturais do ecossistema de pesquisa
- A principal razão pela qual cientistas adotam IA não é necessariamente o avanço da própria ciência, mas sim benefícios individuais como salários mais altos, carreira, citações de artigos e captação de recursos de pesquisa
- Na prática, observa-se que pesquisadores que usam IA recebem um ambiente mais favorável em termos de artigos altamente citados e competitividade em pesquisa em comparação com cientistas em geral
- Em vez de definir “qual problema científico precisa ser resolvido”, pesquisadores que usam IA acabam caindo na armadilha estrutural de “procurar depois um problema que possa ser resolvido com IA”
- Com isso, em muitos casos, o foco passa a ser demonstrar o potencial da IA, e não promover avanço científico real, gerando apenas problemas já resolvidos ou efeitos secundários
Limites estruturais dos relatos em artigos e viés otimista na ciência
- Devido à não publicação de resultados negativos (viés de sobrevivência), só aparecem em massa casos de sucesso no uso de IA, enquanto os fracassos permanecem ocultos, distorcendo a avaliação do efeito total
- Pela própria estrutura dos artigos, erros sistemáticos ou vieses como vazamento de dados, critérios de comparação fracos, cherry-picking e não divulgação ocorrem repetidamente
- Como avaliadores e partes interessadas pertencem à mesma comunidade, a avaliação de resultados ocorre em uma estrutura de conflito de interesses na qual os ganhos estão diretamente envolvidos
- Diante disso, ao avaliar o impacto da IA na ciência, o texto defende a necessidade de uma postura essencialmente cética e de verificação crítica, semelhante à atitude de não confiar cegamente em um único estudo de nutrição
Conclusão
- No curto prazo, a IA tende mais a ser um meio gradual e seletivo de complementar abordagens existentes do que uma ferramenta revolucionária capaz de liderar a inovação científica
- Devido aos incentivos estruturais do ecossistema de pesquisa, à supervalorização, à não publicação de fracassos e ao problema de baselines fracos, é necessário manter sempre uma perspectiva crítica e cética ao avaliar o desempenho científico real da IA
- A mensagem final é que, para uma inovação ideal com IA, reformas estruturais devem avançar em paralelo — como a formulação de desafios, a divulgação de casos de fracasso e o desenvolvimento de sistemas de comparação justos
1 comentários
Comentários do Hacker News
Fiquei confuso se o título tinha mudado; o título atual é "I got fooled by AI-for-science hype—here's what it taught me"
O título realmente foi alterado, e pessoalmente achei que ficou até pior; prefiro o original e não via problema no título original do artigo, que trata de um doutorando analisando de forma crítica casos duvidosos em que se alega que IA contribui para a pesquisa científica
Não, não foi impressão: o título realmente mudou, e até deram um endereço de arquivo como exemplo
Tive a “sorte” de usar um solver de análise estrutural estilo FEM baseado em IA; em problemas lineares de pequenas deformações ele até quebra o galho, mas quando a coisa fica complexa o desempenho despenca, enquanto o método tradicional leva 5 minutos para dar uma solução exata, ele entrega algo mais ou menos em 30 segundos; em aplicações não lineares, fracassa completamente; dá para usar no máximo para escolher conceitos bem de alto nível, e mesmo nisso deixa a desejar; alguns modelos são basicamente só detectores de curvatura: azul para o que é reto, vermelho para o que tem muita curvatura, e o resto é só interpolação
No fim, parece mais um solver de “second principles”, com a limitação de não conseguir resolver nada realmente novo em situações que nunca viu antes
Fico me perguntando se daria para usar esse tipo de modelo como preconditioner em métodos iterativos
Sempre existe perigo quando uma tecnologia nova e quente recebe atenção demais; uma citação importante no artigo é: “a maioria dos cientistas não está tentando enganar os outros de propósito, mas há uma forte pressão para mostrar resultados favoráveis, então acabam induzindo ao erro”; entender os incentivos de alguém é muito útil para interpretar a informação
No fim, isso é só a repetição de um problema crônico da academia: foco maior em citações e ascensão profissional do que em buscar a verdade; IA é apenas mais um desses temas
Não gosto de generalizar, mas o padrão que vi circulando por alguns centros de HPC na Alemanha é que há muita gente formada em física que não deu muito certo na área, e são justamente eles que acabam levando a maior parte do orçamento ligado a IA, despejando projetos no formato ML4Science; é uma pena ver o orçamento concentrado assim, porque centros de HPC não existem só para físicos; sinto que a Alemanha deveria investir mais em pesquisa de IA propriamente dita
Realisticamente, esse problema de carreirismo é um efeito colateral de a academia ter absorvido cada vez mais a lógica do mercado privado; o que aprendi como desenvolvedor de software é que toda decisão gira em torno do próprio interesse e da carreira; cada um só cuida de parecer competente e, quando o trabalho acaba, a culpa vai para outra pessoa; se você não enfrentar essa mentalidade, acaba até em desvantagem; no fim, todo mundo chega à mesma conclusão e só você sai perdendo
Sinceramente, não entendo por que usaram a expressão "no longer"
Na parte “depois de algumas semanas fracassando, entrei em contato com um amigo de outra universidade e ele também não tinha conseguido bons resultados com PINNs”, ficou claro, independentemente da IA, como a colaboração constante é importante na pesquisa, por ajudar a evitar que as pessoas refaçam caminhos que outros já tentaram sem sucesso
Isso levanta a necessidade de pesquisadores também publicarem artigos sobre experimentos que falharam
Esse é outro motivo pelo qual a ideia de agentes científicos de IA não me convence muito: pesquisa é, por natureza, um processo profundamente colaborativo; por melhor que seja a revisão de literatura, fica a dúvida se alguém pode ser um bom pesquisador sem encontrar e conversar com outras pessoas de fato
Não sou entusiasta de IA, mas o fato de resultados negativos não virarem artigo e de todo mundo exagerar o próprio trabalho não é um problema exclusivo da IA; é um problema da forma como cientistas são avaliados e da estrutura da indústria de periódicos, que, como a mídia tradicional, vive obcecada em atrair audiência; de todo modo, dá a sensação de que o inverno está chegando
Muitas vezes os artigos de IA se resumem a coisas como “se você mobilizar bilhões de GPUs e rodar por tempo infinito, funciona magicamente” ou “testamos num dataset real fechado e foi o melhor”; quando o artigo vem de uma big tech, mesmo com falhas óbvias, ninguém pode simplesmente ignorar; no fim é uma disputa de recursos, e pesquisadores universitários com pouco orçamento, como eu, nem conseguem reproduzir, ficando na posição de apenas acreditar nos números publicados
Há 15 anos escrevi um artigo de IA aplicada e depois fui para outra área, mas voltei recentemente; esse problema existe em todos os campos, mas em IA ele atrai especialmente pesquisadores atrás de fama e dinheiro; as alegações exageradas e os dados selecionados parecem piores, e mesmo os pesquisadores responsáveis acabam precisando exagerar um pouco para competir
IA é apenas o ímã do hype atual, então os problemas ficam mais visíveis
A IA também facilita particularmente escrever artigos “plausíveis”
Fico me perguntando por que a percepção sobre IA/ML no HN é tão polarizada; é um território realmente novo, que eu nunca tinha visto antes; antes não existia a possibilidade de gerar código só a partir de texto; recentemente pedi ao Claude um script de segmentação de imagem com direito a UI, e ele gerou em 1 minuto; esse não é um exemplo isolado de inovação; geração de imagem também parece um mundo novo; há exagero nesse post de blog também, mas, do ponto de vista de um pesquisador, só o ganho de produtividade com código já é enorme; mais interessante ainda é a mudança na forma de pensar sobre dados; antes se dizia “a internet nunca esquece”, mas hoje páginas realmente somem e até funções de cache desapareceram, e fomos esquecendo como lidar com dados; com a chegada da IA, o valor dos dados voltou a ganhar destaque; entramos numa era de reforço em que se dá feedback e o resultado incorpora isso; há progresso em todas as frentes — hardware, algoritmos, dados, ferramentas, protocolos; ainda são necessários mais experimentos, mais GPUs e grandes datacenters; agora estamos num gargalo, com as grandes empresas treinando modelos enormes por semanas e meses
Esse papo de “gerou código de segmentação de imagem” na prática é só uma forma mais vistosa de copiar e colar dados do Stack Overflow; no fundo está na mesma linha de antes buscar informação no Google; por mais novo e impressionante que pareça por fora, no essencial ainda é algo do nível de procurar restaurantes num GIS; no mundo real, continua sem reasoning nenhum, apenas emitindo correlações com base nos dados; ainda assim é útil, mas as limitações são claras
Quanto ao motivo de o clima sobre IA/ML no HN ser tão dividido em comparação com outras tecnologias, é preciso interpretar isso a partir da posição racional de cada pessoa; tanto a visão de que é revolucionário quanto a preocupação com roubo de dados e desprezo pela privacidade têm fundamentos racionais; é importante primeiro reconhecer que existem perspectivas diversas e tentar realmente entender o ponto de vista do outro, deixando o próprio de lado por um momento
O papel fundamental do programador é traduzir linguagem humana para linguagem de computador, e os LLMs claramente invadem essa fronteira; até onde vão entrar ainda é incerto, mas a barreira já caiu; isso pode ser interpretado de várias formas, do medo ao senso de crise; é uma ameaça a uma habilidade de alta renda lapidada por anos, e mesmo que programadores não sejam totalmente substituídos, já é suficientemente ameaçador se tudo se resumir a mal conseguir manter salários de centenas de milhares de dólares
O HN sempre se divide em torno da pergunta “essa tecnologia da moda é real ou é miragem?”; esse tipo de debate se repete com várias tecnologias, e às vezes eu mesmo já mudei de posição; no fim, não me parece tão diferente do que sempre foi
Em contraste com isso, o discurso de que “a IA vai revolucionar a ciência” parece ter avançado muito além das evidências
No começo do artigo parece que a IA inteira é tratada como hype, mas na prática o alvo é uma arquitetura específica, a PINN; no final, o texto também menciona avanços em usar modelos de DL para resolver PDEs mais rapidamente
Não é um problema só de PINN, é bem mais amplo; já se sabe há muito tempo que PINN não é grande coisa, mas o fracasso mais geral de usar ML em problemas físicos também é disseminado; os casos em que ML funciona bem são (1) quando há muitos dados e um domínio estreito, como MLIP, ou (2) quando se pode usar uma quantidade gigantesca de dados e modelos enormes, como AlphaFold; mas a maior parte do ML para problemas físicos fica no meio do caminho: poucos dados experimentais e simulações caras, além de datasets e modelos de tamanho duvidoso; no fim, todo mundo tenta e fracassa, mas mesmo assim publica; se vier de um laboratório famoso, de um PI conhecido ou parecer exótico, bons periódicos aceitam e as citações sobem; no final sobra apenas a limitação de reproduzir uma parte dos dados, e a conclusão de que outras pessoas deveriam focar em reforçar a generalização
O que o autor fez não se limita a PINNs; ele também escreveu um artigo analisando sistematicamente vários modelos, e há até uma seção separada sobre isso
Se você trocar PINN por qualquer solução de IA, a parte exagerada continua aparecendo; até agora, a utilidade prática da IA parece ser, de forma realista, “automatização de tarefas simples de especialistas, com necessidade de checagem tripla”
Ótima análise e bons exemplos; outro problema é que os artigos de IA, mesmo quando são novos e têm baixa presença em periódicos “formais”, ainda assim recebem muitas citações; é muito difícil reproduzir ou verificar as alegações, porque o método de pesquisa e os dados mudam a cada ano; também fica ambíguo saber se a conclusão decorre de características do modelo da época ou se é algo generalizável
Ao ver o nome do dono do blog ("Timothy B. Lee"), fiquei surpreso ao pensar que o inventor do HTTP e da web, já com mais de 70 anos, mantinha um blog tão moderno