3 pontos por GN⁺ 2025-05-21 | 1 comentários | Compartilhar no WhatsApp
  • Ao contrário das expectativas sobre o uso de IA na pesquisa em física de plasma, os resultados práticos reais se concentraram em desempenhos exagerados e limitações
  • Métodos de resolução de PDE (equações diferenciais parciais) com IA, como PINN, não demonstraram uma vantagem clara sobre métodos numéricos tradicionais em termos de confiabilidade e desempenho
  • Por causa de baselines fracos (weak baselines) e de viés de publicação, a maior parte dos artigos sobre resultados de IA apresenta avaliações excessivamente positivas em relação à realidade
  • Embora o uso científico da IA esteja crescendo rapidamente, é mais plausível que ela faça contribuições graduais e limitadas do que atue como uma ferramenta líder de inovação no avanço científico
  • Devido à estrutura dos artigos científicos e aos incentivos dados aos pesquisadores, repetem-se a não divulgação de casos de fracasso e relatos exagerados, reforçando a necessidade de uma postura essencialmente cética ao avaliar o impacto científico da IA

Introdução e contexto da pesquisa

  • O autor, Nick McGreivy, após obter um doutorado em física de plasma em Princeton, migrou para pesquisas com aprendizado de máquina motivado pela expectativa de que a IA pudesse contribuir para revolucionar a pesquisa científica, especialmente na física
  • Ele se interessou por saber se a IA poderia transformar de forma radical toda a ciência, como tecnologias de uso geral como eletrônica, internet e circuitos integrados
  • Na prática, porém, ao pesquisar o uso de IA para resolver PDEs (equações diferenciais parciais), ele encontrou resultados abaixo do esperado quando comparados ao desempenho divulgado em artigos famosos

Experiência com a aplicação de PINN (Physics-Informed Neural Network)

  • Na área de resolução de PDEs com IA, o PINN emergiu rapidamente como um método representativo, e o autor também testou essa abordagem de forma experimental
  • Artigos anteriores relatavam que o PINN oferecia soluções eficazes para problemas de PDE em várias áreas, como fluidos clássicos, mecânica quântica e sistemas de reação-difusão, mas na prática ele observou resultados instáveis ou com confiabilidade muito baixa até mesmo em PDEs muito simples (como Vlasov 1D)
  • Melhorias com ajustes simples eram difíceis, e em PDEs mais complexas (como Vlasov-Poisson 1D) ele não conseguiu sequer obter uma solução adequada
  • Pesquisadores próximos também passaram por fracassos semelhantes, mas esses resultados negativos quase nunca são publicados em artigos

Lições aprendidas com os experimentos com PINN

  • Até mesmo autores de artigos seminais e influentes reconheciam que o PINN falhava em determinadas configurações, mas divulgavam apenas os resultados mais convincentes
  • No ecossistema de artigos científicos, a prática de relatar principalmente resultados positivos e de não publicar experimentos fracassados relacionados à IA aprofunda o viés de sobrevivência (survivorship bias)
  • O método PINN é um conceito numericamente elegante, mas o autor compartilha que desistiu de adotá-lo por causa de limitações práticas como instabilidade, dificuldade de ajuste fino e redução de velocidade de processamento
  • O artigo original recebeu mais de 14.000 citações e é o trabalho mais citado da área de métodos numéricos, mas, na resolução real de PDEs, não apresenta vantagem competitiva em relação aos métodos existentes
  • Mais recentemente, também há alegações de que o PINN pode funcionar bem em áreas específicas, como problemas inversos (inverse problems), mas existe debate entre pesquisadores sobre isso

Otimismo excessivo provocado por critérios de comparação inadequados

  • Depois disso, o autor tentou abordagens de deep learning que, assim como técnicas numéricas tradicionais, tratam a solução de PDEs como um conjunto de grades ou pixels de grafos
  • Muitos artigos afirmavam que a IA resolvia PDEs até milhares ou dezenas de milhares de vezes mais rápido do que os métodos existentes, mas na maioria dos casos o baseline usado para comparação era fraco
  • A análise de um artigo representativo mostrou que, entre 76 trabalhos em que se dizia que a IA tinha vantagem, 60 (79%) não faziam uma comparação justa com métodos numéricos tradicionais suficientemente bons
  • Esses critérios de comparação fracos e a não divulgação de resultados negativos confirmam uma tendência de exagerar a avaliação de que a “IA traz resultados revolucionários”
  • Esses achados geraram controvérsia na academia e na indústria: alguns defendem direções futuras de pesquisa e o fortalecimento do potencial da IA, enquanto outros expressam maior cautela diante do problema atual de supervalorização

O papel e os limites da IA na ciência

  • Entre os exemplos mais conhecidos de sucesso estão a previsão do dobramento de proteínas pelo AlphaFold, a previsão do tempo (com melhora de até 20% na precisão) e o desenvolvimento de medicamentos (com aumento na taxa de sucesso da fase 1 clínica), mas, mais do que uma inovação ampla, tratam-se sobretudo de avanços complementares e graduais em relação às tecnologias existentes
  • Big techs globais, a mídia e o meio acadêmico frequentemente apresentam a IA como uma “ferramenta revolucionária para a ciência” ou até como o agente transformador que mudará o paradigma científico, mas há limites claros para o grau de inovação essencial que a IA atual consegue entregar

Motivações para adotar IA e problemas estruturais do ecossistema de pesquisa

  • A principal razão pela qual cientistas adotam IA não é necessariamente o avanço da própria ciência, mas sim benefícios individuais como salários mais altos, carreira, citações de artigos e captação de recursos de pesquisa
  • Na prática, observa-se que pesquisadores que usam IA recebem um ambiente mais favorável em termos de artigos altamente citados e competitividade em pesquisa em comparação com cientistas em geral
  • Em vez de definir “qual problema científico precisa ser resolvido”, pesquisadores que usam IA acabam caindo na armadilha estrutural de “procurar depois um problema que possa ser resolvido com IA”
  • Com isso, em muitos casos, o foco passa a ser demonstrar o potencial da IA, e não promover avanço científico real, gerando apenas problemas já resolvidos ou efeitos secundários

Limites estruturais dos relatos em artigos e viés otimista na ciência

  • Devido à não publicação de resultados negativos (viés de sobrevivência), só aparecem em massa casos de sucesso no uso de IA, enquanto os fracassos permanecem ocultos, distorcendo a avaliação do efeito total
  • Pela própria estrutura dos artigos, erros sistemáticos ou vieses como vazamento de dados, critérios de comparação fracos, cherry-picking e não divulgação ocorrem repetidamente
  • Como avaliadores e partes interessadas pertencem à mesma comunidade, a avaliação de resultados ocorre em uma estrutura de conflito de interesses na qual os ganhos estão diretamente envolvidos
  • Diante disso, ao avaliar o impacto da IA na ciência, o texto defende a necessidade de uma postura essencialmente cética e de verificação crítica, semelhante à atitude de não confiar cegamente em um único estudo de nutrição

Conclusão

  • No curto prazo, a IA tende mais a ser um meio gradual e seletivo de complementar abordagens existentes do que uma ferramenta revolucionária capaz de liderar a inovação científica
  • Devido aos incentivos estruturais do ecossistema de pesquisa, à supervalorização, à não publicação de fracassos e ao problema de baselines fracos, é necessário manter sempre uma perspectiva crítica e cética ao avaliar o desempenho científico real da IA
  • A mensagem final é que, para uma inovação ideal com IA, reformas estruturais devem avançar em paralelo — como a formulação de desafios, a divulgação de casos de fracasso e o desenvolvimento de sistemas de comparação justos

1 comentários

 
GN⁺ 2025-05-21
Comentários do Hacker News
  • Fiquei confuso se o título tinha mudado; o título atual é "I got fooled by AI-for-science hype—here's what it taught me"

    • O título realmente foi alterado, e pessoalmente achei que ficou até pior; prefiro o original e não via problema no título original do artigo, que trata de um doutorando analisando de forma crítica casos duvidosos em que se alega que IA contribui para a pesquisa científica

    • Não, não foi impressão: o título realmente mudou, e até deram um endereço de arquivo como exemplo

  • Tive a “sorte” de usar um solver de análise estrutural estilo FEM baseado em IA; em problemas lineares de pequenas deformações ele até quebra o galho, mas quando a coisa fica complexa o desempenho despenca, enquanto o método tradicional leva 5 minutos para dar uma solução exata, ele entrega algo mais ou menos em 30 segundos; em aplicações não lineares, fracassa completamente; dá para usar no máximo para escolher conceitos bem de alto nível, e mesmo nisso deixa a desejar; alguns modelos são basicamente só detectores de curvatura: azul para o que é reto, vermelho para o que tem muita curvatura, e o resto é só interpolação

    • No fim, parece mais um solver de “second principles”, com a limitação de não conseguir resolver nada realmente novo em situações que nunca viu antes

    • Fico me perguntando se daria para usar esse tipo de modelo como preconditioner em métodos iterativos

  • Sempre existe perigo quando uma tecnologia nova e quente recebe atenção demais; uma citação importante no artigo é: “a maioria dos cientistas não está tentando enganar os outros de propósito, mas há uma forte pressão para mostrar resultados favoráveis, então acabam induzindo ao erro”; entender os incentivos de alguém é muito útil para interpretar a informação

    • Há gente atrás de dinheiro e financiamento só por causa da palavra IA; na prática, a maioria é apenas software com machine learning embutido, algo que já existe há muito tempo; não acho que a tecnologia em si seja tão grande ou tão precisa assim
  • No fim, isso é só a repetição de um problema crônico da academia: foco maior em citações e ascensão profissional do que em buscar a verdade; IA é apenas mais um desses temas

    • Não gosto de generalizar, mas o padrão que vi circulando por alguns centros de HPC na Alemanha é que há muita gente formada em física que não deu muito certo na área, e são justamente eles que acabam levando a maior parte do orçamento ligado a IA, despejando projetos no formato ML4Science; é uma pena ver o orçamento concentrado assim, porque centros de HPC não existem só para físicos; sinto que a Alemanha deveria investir mais em pesquisa de IA propriamente dita

    • Realisticamente, esse problema de carreirismo é um efeito colateral de a academia ter absorvido cada vez mais a lógica do mercado privado; o que aprendi como desenvolvedor de software é que toda decisão gira em torno do próprio interesse e da carreira; cada um só cuida de parecer competente e, quando o trabalho acaba, a culpa vai para outra pessoa; se você não enfrentar essa mentalidade, acaba até em desvantagem; no fim, todo mundo chega à mesma conclusão e só você sai perdendo

    • Sinceramente, não entendo por que usaram a expressão "no longer"

  • Na parte “depois de algumas semanas fracassando, entrei em contato com um amigo de outra universidade e ele também não tinha conseguido bons resultados com PINNs”, ficou claro, independentemente da IA, como a colaboração constante é importante na pesquisa, por ajudar a evitar que as pessoas refaçam caminhos que outros já tentaram sem sucesso

    • Isso levanta a necessidade de pesquisadores também publicarem artigos sobre experimentos que falharam

    • Esse é outro motivo pelo qual a ideia de agentes científicos de IA não me convence muito: pesquisa é, por natureza, um processo profundamente colaborativo; por melhor que seja a revisão de literatura, fica a dúvida se alguém pode ser um bom pesquisador sem encontrar e conversar com outras pessoas de fato

  • Não sou entusiasta de IA, mas o fato de resultados negativos não virarem artigo e de todo mundo exagerar o próprio trabalho não é um problema exclusivo da IA; é um problema da forma como cientistas são avaliados e da estrutura da indústria de periódicos, que, como a mídia tradicional, vive obcecada em atrair audiência; de todo modo, dá a sensação de que o inverno está chegando

    • Muitas vezes os artigos de IA se resumem a coisas como “se você mobilizar bilhões de GPUs e rodar por tempo infinito, funciona magicamente” ou “testamos num dataset real fechado e foi o melhor”; quando o artigo vem de uma big tech, mesmo com falhas óbvias, ninguém pode simplesmente ignorar; no fim é uma disputa de recursos, e pesquisadores universitários com pouco orçamento, como eu, nem conseguem reproduzir, ficando na posição de apenas acreditar nos números publicados

    • Há 15 anos escrevi um artigo de IA aplicada e depois fui para outra área, mas voltei recentemente; esse problema existe em todos os campos, mas em IA ele atrai especialmente pesquisadores atrás de fama e dinheiro; as alegações exageradas e os dados selecionados parecem piores, e mesmo os pesquisadores responsáveis acabam precisando exagerar um pouco para competir

    • IA é apenas o ímã do hype atual, então os problemas ficam mais visíveis

    • A IA também facilita particularmente escrever artigos “plausíveis”

  • Fico me perguntando por que a percepção sobre IA/ML no HN é tão polarizada; é um território realmente novo, que eu nunca tinha visto antes; antes não existia a possibilidade de gerar código só a partir de texto; recentemente pedi ao Claude um script de segmentação de imagem com direito a UI, e ele gerou em 1 minuto; esse não é um exemplo isolado de inovação; geração de imagem também parece um mundo novo; há exagero nesse post de blog também, mas, do ponto de vista de um pesquisador, só o ganho de produtividade com código já é enorme; mais interessante ainda é a mudança na forma de pensar sobre dados; antes se dizia “a internet nunca esquece”, mas hoje páginas realmente somem e até funções de cache desapareceram, e fomos esquecendo como lidar com dados; com a chegada da IA, o valor dos dados voltou a ganhar destaque; entramos numa era de reforço em que se dá feedback e o resultado incorpora isso; há progresso em todas as frentes — hardware, algoritmos, dados, ferramentas, protocolos; ainda são necessários mais experimentos, mais GPUs e grandes datacenters; agora estamos num gargalo, com as grandes empresas treinando modelos enormes por semanas e meses

    • Esse papo de “gerou código de segmentação de imagem” na prática é só uma forma mais vistosa de copiar e colar dados do Stack Overflow; no fundo está na mesma linha de antes buscar informação no Google; por mais novo e impressionante que pareça por fora, no essencial ainda é algo do nível de procurar restaurantes num GIS; no mundo real, continua sem reasoning nenhum, apenas emitindo correlações com base nos dados; ainda assim é útil, mas as limitações são claras

    • Quanto ao motivo de o clima sobre IA/ML no HN ser tão dividido em comparação com outras tecnologias, é preciso interpretar isso a partir da posição racional de cada pessoa; tanto a visão de que é revolucionário quanto a preocupação com roubo de dados e desprezo pela privacidade têm fundamentos racionais; é importante primeiro reconhecer que existem perspectivas diversas e tentar realmente entender o ponto de vista do outro, deixando o próprio de lado por um momento

    • O papel fundamental do programador é traduzir linguagem humana para linguagem de computador, e os LLMs claramente invadem essa fronteira; até onde vão entrar ainda é incerto, mas a barreira já caiu; isso pode ser interpretado de várias formas, do medo ao senso de crise; é uma ameaça a uma habilidade de alta renda lapidada por anos, e mesmo que programadores não sejam totalmente substituídos, já é suficientemente ameaçador se tudo se resumir a mal conseguir manter salários de centenas de milhares de dólares

    • O HN sempre se divide em torno da pergunta “essa tecnologia da moda é real ou é miragem?”; esse tipo de debate se repete com várias tecnologias, e às vezes eu mesmo já mudei de posição; no fim, não me parece tão diferente do que sempre foi

    • Em contraste com isso, o discurso de que “a IA vai revolucionar a ciência” parece ter avançado muito além das evidências

  • No começo do artigo parece que a IA inteira é tratada como hype, mas na prática o alvo é uma arquitetura específica, a PINN; no final, o texto também menciona avanços em usar modelos de DL para resolver PDEs mais rapidamente

    • Não é um problema só de PINN, é bem mais amplo; já se sabe há muito tempo que PINN não é grande coisa, mas o fracasso mais geral de usar ML em problemas físicos também é disseminado; os casos em que ML funciona bem são (1) quando há muitos dados e um domínio estreito, como MLIP, ou (2) quando se pode usar uma quantidade gigantesca de dados e modelos enormes, como AlphaFold; mas a maior parte do ML para problemas físicos fica no meio do caminho: poucos dados experimentais e simulações caras, além de datasets e modelos de tamanho duvidoso; no fim, todo mundo tenta e fracassa, mas mesmo assim publica; se vier de um laboratório famoso, de um PI conhecido ou parecer exótico, bons periódicos aceitam e as citações sobem; no final sobra apenas a limitação de reproduzir uma parte dos dados, e a conclusão de que outras pessoas deveriam focar em reforçar a generalização

    • O que o autor fez não se limita a PINNs; ele também escreveu um artigo analisando sistematicamente vários modelos, e há até uma seção separada sobre isso

    • Se você trocar PINN por qualquer solução de IA, a parte exagerada continua aparecendo; até agora, a utilidade prática da IA parece ser, de forma realista, “automatização de tarefas simples de especialistas, com necessidade de checagem tripla”

  • Ótima análise e bons exemplos; outro problema é que os artigos de IA, mesmo quando são novos e têm baixa presença em periódicos “formais”, ainda assim recebem muitas citações; é muito difícil reproduzir ou verificar as alegações, porque o método de pesquisa e os dados mudam a cada ano; também fica ambíguo saber se a conclusão decorre de características do modelo da época ou se é algo generalizável

    • Não sou cientista nem pesquisador, mas qualquer resultado baseado em estatística ou interpretação de dados já me faz começar desconfiando
  • Ao ver o nome do dono do blog ("Timothy B. Lee"), fiquei surpreso ao pensar que o inventor do HTTP e da web, já com mais de 70 anos, mantinha um blog tão moderno