Ferramentas de IA estão encontrando erros em artigos científicos

(nature.com)

14 pontos por GN⁺ 2025-03-09 | 5 comentários | Compartilhar no WhatsApp

Recentemente, ferramentas de IA vêm encontrando erros de cálculo, metodologia e referências em artigos científicos
No ano passado, foi divulgado um estudo afirmando que utensílios de cozinha de plástico preto continham substâncias químicas causadoras de câncer
- Mas depois foi revelado que, devido a um erro matemático no estudo, a concentração real dessas substâncias era 10 vezes menor que o limite de segurança
- Um modelo de inteligência artificial (IA) conseguiu identificar esse erro em poucos segundos

Projeto de detecção de erros em artigos científicos com IA

Black Spatula Project

Ferramenta de IA open source que analisou cerca de 500 artigos para detectar erros
O projeto está sendo coordenado por Joaquin Gulloso, pesquisador independente de IA da Colômbia, com participação de 8 desenvolvedores e centenas de conselheiros
A lista de erros não foi tornada pública e, quando um erro é encontrado, os pesquisadores são contatados diretamente para incentivar correções

YesNoError

Projeto iniciado com inspiração no Black Spatula Project
Liderado pelo fundador e empreendedor de IA Matt Schlicht
Opera com financiamento por meio de uma criptomoeda própria
Até agora, concluiu a análise de cerca de 37.000 artigos em dois meses
Artigos com erros encontrados são marcados no site, mas a maioria ainda não passou por verificação de especialistas
No longo prazo, planeja verificar os erros em colaboração com o ResearchHub (que recompensa pesquisadores com doutorado usando criptomoeda)

Incentivo ao uso de ferramentas de IA por pesquisadores e periódicos

Incentivar pesquisadores a usar ferramentas de IA antes de submeter artigos, e periódicos antes de publicá-los, para detectar erros com antecedência
Espera-se fortalecer a confiabilidade científica ao prevenir erros e fraudes em pesquisa

Reação e preocupações no meio acadêmico

Especialistas em integridade científica reagiram de forma cautelosamente positiva aos projetos
A pesquisadora Michèle Nuijten, da Tilburg University, levantou a seguinte preocupação:
- Se a precisão das ferramentas de IA não for claramente validada, apontar erros incorretamente pode causar danos à reputação
Publicidade
O metacientista forense James Heathers, da Linnaeus University, manifestou apoio da seguinte forma:
- "Retrair um artigo ruim é muito mais difícil do que escrevê-lo"
- A IA pode ser útil para triagem de artigos e para induzir revisões adicionais

Como as ferramentas de IA funcionam

Uso de grandes modelos de linguagem (LLMs) para detectar erros nos artigos
- As ferramentas extraem informações como tabelas e imagens dos artigos e depois geram instruções complexas (prompts)
- O modelo de IA analisa o artigo várias vezes para buscar diferentes tipos de erro e cruzar os resultados
- Custo de análise por artigo: de US$ 0,15 a alguns dólares, dependendo do tamanho do artigo e da complexidade do prompt

Problema de falsos positivos

Black Spatula Project → cerca de 10% de falsos positivos
- Todos os erros precisam de verificação por especialistas → a falta de especialistas é o maior gargalo
Publicidade
YesNoError → ao verificar 100 erros matemáticos em 10.000 artigos, mais de 90% foram confirmados como erros reais
- O YesNoError está trabalhando para reduzir a taxa de falsos positivos e segue incorporando feedback contínuo da academia

Críticas ao problema de falsos positivos

O pesquisador Nick Brown, da Linnaeus University:
- Encontrou falsos positivos em 14 dos 40 artigos analisados pelo YesNoError → em sua maioria, problemas de redação
- Erros triviais podem gerar uma carga desnecessária para o meio acadêmico
- "A menos que a tecnologia melhore drasticamente, isso vai exigir muito trabalho sem um benefício claro"

Próximos desafios e expectativas para as ferramentas de IA

O YesNoError planeja introduzir um sistema em que detentores da criptomoeda decidam quais artigos revisar primeiro
- Existe a possibilidade de artigos sobre temas politicamente sensíveis (por exemplo, ciência do clima) se tornarem alvo
O pesquisador Brown: "Se as ferramentas de IA realmente mostrarem eficácia, grandes mudanças podem ocorrer em áreas específicas da pesquisa"

5 comentários

dbs0829 2025-03-10

Artigos de baixa qualidade provavelmente serão filtrados, mas, por outro lado, fico preocupado que até os bons artigos acabem enfrentando barreiras maiores e se tornem, relativamente, menos criativos. Mesmo quando há lacunas lógicas, às vezes é justamente delas que surgem novas ideias, então, pessoalmente, isso não me agrada muito.

mcdasa 2025-03-09

A IA também pode errar, então fico curioso sobre como verificar que os pontos apontados pela IA não estão errados.

ndrgrd 2025-03-09

Com a popularização dos LLMs, estão surgindo mudanças enormes em áreas onde a demanda existia principalmente por causa da assimetria de informação.

bus710 2025-03-09

Fico pensando em como seria se mandássemos analisar vários textos sagrados da humanidade também, haha

GN⁺ 2025-03-09

Comentários no Hacker News

Se a IA consegue encontrar erros óbvios em artigos já publicados, ela poderia ser usada como parte do processo de revisão. Os autores poderiam aplicá-la ao próprio trabalho antes da submissão, elevando bastante a qualidade dos artigos
- O ponto importante é que especialistas — ou seja, os autores e os revisores por pares — participem desse processo. Eles podem ignorar facilmente falsos positivos, mas ainda assim receber alertas sobre erros estatísticos ou questões fora da sua área de especialidade
No momento, o site YesNoError contém muitos falsos positivos. Nick Brown, pesquisador da Linnaeus University, afirma que 14 de 40 artigos problemáticos eram falsos positivos
- A maioria dos problemas parece ser de redação, e muitas das detecções teriam sido incorretas
- Ele alerta que, a menos que essa tecnologia melhore muito, ela vai gerar muito trabalho sem benefício evidente
Como no momento tudo está sendo conduzido por IA, as pessoas podem achar que ela está verificando fraude ou lógica falha. Na prática, ela verifica autoconsistência e consistência com os dados de treinamento
- Pode ser boa para encontrar typos, formulações enganosas e para validação cruzada de fatos e diagramas, mas não deve contribuir muito contra dados fabricados ou conclusões plausíveis, porém erradas
Sugestão da ideia de usar IA para mapear o impacto de artigos retratados. Seria possível identificar conclusões de artigos retratados que já não têm sustentação e verificar onde elas aparecem em artigos posteriores
Nossa memória coletiva é curta demais? Já esquecemos os problemas causados por relatórios de bugs gerados por IA?
No projeto Black Spatula, foram apresentados dois exemplos em que erros importantes foram detectados
- Não foi necessário um pipeline complexo com múltiplos agentes; um único prompt conseguiu detectar esses erros
A ideia é boa, e seria interessante aplicá-la aos relatórios da própria empresa para detectar erros óbvios antes de enviá-los ao chefe
- No entanto, duas abordagens são destacadas. Uma é a abordagem de pequena escala, em que primeiro não se publica nada e se entra em contato com os autores em privado. A outra é publicar primeiro, sem revisão humana, e ter a própria criptomoeda
O YesNoError planeja permitir que detentores de criptomoeda decidam quais artigos serão revisados primeiro
Essa ideia é muito ruim. É melhor pular a primeira seção e ler a seção sobre "falsos positivos"
Há muito ceticismo quanto ao valor disso. Já houve tempo desperdiçado respondendo a alegações sem fundamento geradas por "revisões" de IA. Talvez esse tipo de alegação já existisse antes, mas geradores de texto sabem alucinar usando a terminologia certa para convencer pessoas comuns e amadores, o que torna tudo mais irritante de lidar