Artigos falsos no Google Scholar gerados por GPT: principais características, disseminação e implicações para prevenir a manipulação de evidências
(misinforeview.hks.harvard.edu)- No Google Scholar, é fácil encontrar muitos artigos suspeitos que parecem ter sido gerados por modelos GPT de uso geral
- Esses artigos são produzidos principalmente com aplicações de IA de uso amplo, especialmente o ChatGPT, imitando a redação científica
- O Google Scholar lista esses artigos suspeitos ao lado de artigos de pesquisa confiáveis e com controle de qualidade
- A análise de uma amostra de artigos científicos suspeitos gerados por GPT encontrados no Google Scholar mostra que muitos tratam de áreas de aplicação vulneráveis à desinformação digital, como meio ambiente, saúde e computação
- A crescente possibilidade de manipulação maliciosa de evidências em áreas politicamente muito conflituosas é uma preocupação cada vez maior
Principais achados
Achado 1: 139 artigos suspeitos gerados por GPT aparecem nos resultados de busca do Google Scholar como se fossem artigos comuns. Muitos estão em periódicos não indexados
- A maioria dos artigos suspeitos estava em periódicos não indexados ou working papers, mas alguns também foram encontrados em periódicos, publicações, conferências e repositórios respeitados
- Foram identificados ao todo 139 artigos suspeitos de usar de forma enganosa o ChatGPT ou aplicações LLM semelhantes
- Desses, 19 estavam em periódicos indexados, 89 em periódicos não indexados, 19 eram trabalhos estudantis em bases de dados universitárias e 12 eram working papers, em sua maioria em bases de preprints
- Artigos sobre meio ambiente e saúde representam cerca de 34% da amostra, e 66% deles foram publicados em periódicos não indexados
Achado 2: artigos suspeitos gerados por GPT são distribuídos online, espalham-se por toda a infraestrutura de comunicação acadêmica e frequentemente existem em várias cópias. Predominam áreas aplicadas com implicações práticas
- Foram encontrados 27 artigos sobre questões ambientais em 56 URLs de 26 domínios únicos
- Foram encontrados 20 artigos sobre questões de saúde em 46 URLs de 20 domínios únicos
- A maioria dos artigos identificados existe em várias cópias e já se espalhou por diversos arquivos, repositórios e redes sociais
- Removê-los do registro acadêmico será difícil ou impossível
Achado 3: o Google Scholar apresenta, na mesma interface, resultados de bases de citações com controle de qualidade e sem controle de qualidade, permitindo acesso irrestrito a artigos suspeitos gerados por GPT
- A posição central do Google Scholar na infraestrutura aberta de comunicação acadêmica, somada à falta de padrões, transparência e responsabilização em seus critérios de inclusão, pode ter um impacto grave na confiança pública na ciência
- Isso aumenta o potencial de abuso do Google Scholar para manipulação de evidências e afetará tentativas de retratar ou remover artigos falsos de suas fontes originais
- Qualquer solução precisa considerar toda a infraestrutura de comunicação acadêmica e a interação entre diferentes atores, interesses e motivações
Opinião do GN⁺
Esta é uma situação preocupante pelos seguintes motivos:
-
Artigos gerados por GPT podem sobrecarregar o sistema de comunicação acadêmica e ameaçar a integridade do registro científico. Isso tende a agravar ainda mais o problema já existente das
paper mills. -
Conteúdos produzidos por IA que parecem cientificamente convincentes podem, na verdade, ter sido gerados de forma enganosa. Isso pode enfraquecer a confiança pública no conhecimento científico e causar sérios riscos sociais.
-
Os critérios de inclusão do Google Scholar são opacos e carecem de responsabilização. Isso está ligado ao problema de apresentar nos resultados de busca, sem distinção, bases de citações que seguem padrões e bases que não seguem.
-
Como os artigos falsos se espalham por diferentes plataformas, mesmo que o original seja retratado, é difícil rastreá-los e removê-los. Isso pode gerar impactos negativos duradouros na área de pesquisa em questão.
-
Muitos artigos gerados por GPT foram encontrados em temas socialmente sensíveis e importantes, como saúde e meio ambiente. Isso pode causar grave confusão na formulação de políticas públicas e abrir espaço para uso político indevido.
Para enfrentar esse problema, é necessário considerar ao mesmo tempo abordagens técnicas, educacionais e institucionais. Por exemplo:
- oferecer, em mecanismos de busca acadêmicos, opções de filtragem por revisão por pares e critérios semelhantes
- integrar ferramentas de avaliação à interface e aos crawlers dos mecanismos de busca acadêmicos
- construir um mecanismo de busca acadêmico gratuito operado em benefício do interesse público, e não por razões comerciais
- promover iniciativas de educação voltadas a formuladores de políticas, comunicadores científicos, jornalistas e outros públicos
Em termos mais fundamentais, esse problema deve ser abordado dentro de um contexto maior: as falhas do sistema de publicação acadêmica, a cultura do "publish or perish", o monopólio do Google e os conflitos ideológicos em torno do controle da informação. Soluções apenas técnicas não serão suficientes.
2 comentários
alphaXiv - discutir publicamente artigos do arXiv
Vendo essa plataforma junto com este texto, dá uma sensação de que há alguma conexão
Comentários do Hacker News
Na APS March Meeting, um editor de periódico científico se preocupa mais com revisões geradas por LLM do que com artigos gerados por LLM
O script em Python dos autores pode ter bugs
bibnão estiver na resposta da API, pode haver inconsistência nas colunas do dataframeO GPT pode facilitar a manipulação de artigos científicos, mas humanos já fazem isso bem sem IA
Seria bom se o método de coleta de dados em artigos sobre LLM fosse mais sofisticado
Especialistas da área conseguem distinguir resultados falsos com facilidade
Em discussões anteriores, artigos suspeitos de usar GPT na verdade foram escritos antes da OpenAI
O ChatGPT não entende a verdade
Aprecia-se o fato de a imagem da matéria não ter sido gerada por IA
Artigos gerados por GPT podem ter sido escritos por pessoas que não têm o inglês como língua nativa para melhorar o inglês
Parece que estamos entrando em tempos sombrios