- A ferramenta Hallucination Check, da GPTZero, analisou 4.841 dos 5.290 artigos aceitos na NeurIPS 2025 e identificou mais de 100 “citações alucinadas” (hallucinated citations)
- Em vários artigos, foram encontrados sinais de geração por IA, como autores inexistentes, DOI e URLs incorretos e títulos fabricados
- A GPTZero define esse tipo de erro como “vibe citing”, descrevendo-o como uma forma de citação montada para parecer plausível por meio da mistura e modificação de informações reais de artigos
- Todos os casos passaram por verificação de especialistas humanos, e a ferramenta foi descrita como tendo taxa muito baixa de falsos negativos (99% de detecção), embora marque casos suspeitos de forma conservadora
- O caso é visto como um exemplo que mostra a necessidade de automatizar a detecção de erros de citação gerados por IA no processo de redação e validação de artigos científicos
Resultado da análise da GPTZero sobre os artigos da NeurIPS 2025
- A GPTZero examinou 4.841 dos 5.290 artigos aceitos na NeurIPS 2025 e encontrou mais de 100 citações alucinadas
- Cada caso foi validado por humanos, confirmando que se tratava de citações que de fato não existem
- Como exemplo, foram encontradas várias citações com nomes de periódicos, autores e DOI inexistentes
- A GPTZero classifica esses erros de citação como vestígios de geração por IA (vibe citing)
- A forma mais comum são citações falsas criadas pela combinação ou alteração de títulos e autores reais
- Algumas usam títulos parecidos com os de artigos reais, mas foram identificadas por inconsistências de ano, fonte e autoria
Definição e tipos de “vibe citing”
- A GPTZero define “vibe citing” como “uma citação criada por IA generativa a partir da combinação e modificação de fontes reais”
- Isso inclui casos com nomes de autores, títulos, editoras e DOI manipulados ou sintetizados
- Em alguns casos, há citação parcial de artigos reais ou até a criação de nomes falsos de periódicos
- Em contrapartida, erros simples como typos, links quebrados ou números de página ausentes são considerados erros humanos e ficam de fora
- A GPTZero apresenta as diferenças entre citações reais, defeituosas e alucinadas em uma tabela comparativa
- Ex.: transformar o artigo “Deep learning” em “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” é classificado como citação alucinada
Funções da ferramenta Hallucination Check
- O Hallucination Check é um sistema de detecção baseado em IA que automatiza a verificação de citações
- Ele sinaliza automaticamente citações que não podem ser verificadas online
- Também ajuda autores, editores e revisores a revisar rapidamente erros de citação
- Etapas de uso
- O autor faz uma checagem automática das citações do artigo antes do envio
- O revisor identifica rapidamente citações não verificadas
- Editoras de conferências e periódicos podem usar a ferramenta junto com o AI Detector para detectar ao mesmo tempo indícios de escrita por IA e erros de citação
Precisão de validação da GPTZero
- O Hallucination Check tem taxa muito baixa de falsos negativos (99% de precisão de detecção)
- Ou seja, a chance de deixar passar uma citação realmente alucinada é extremamente baixa
- Em contrapartida, a taxa de falsos positivos pode ser um pouco mais alta devido à detecção conservadora
- A GPTZero afirma ter encontrado dezenas de erros de citação gerados por IA com o mesmo método em casos como a ICLR 2026 e relatórios da Deloitte
Significado para a academia e o ecossistema de publicação
- O caso da NeurIPS 2025 expõe o problema da queda na confiabilidade das citações, em paralelo à expansão do uso de ferramentas de IA na redação de artigos
- A GPTZero está colaborando com o comitê organizador da ICLR para construir um sistema automático de validação de artigos submetidos no futuro
- A expectativa é que essas iniciativas levem a mais eficiência e transparência na revisão de artigos e ao fortalecimento da verificação de conteúdo gerado por IA
1 comentários
Comentários no Hacker News
Eu verifiquei aleatoriamente um artigo do Google no qual um colega participou como coautor
O artigo apontado como problemático era um paper da ICLR 2024, e dois autores citados estavam faltando enquanto outro (Kyle Richardson) foi incluído incorretamente
Essa citação estava na parte de contexto, não no núcleo do artigo, e é bem provável que tenha sido apenas um erro de digitação gerado durante o processo de autocompletar com IA
Pode haver casos graves no conjunto de dados, mas o que eu vi foi um erro pequeno que poderia ser corrigido imediatamente com uma checagem de DOI
A inclusão desses artigos com ‘erro único’ parece ter sido intencional para maximizar o efeito de divulgação do produto por parte dos autores
O problema é que não dá para saber se esse é o único erro
A existência desse tipo de falha indica que o artigo foi submetido sem validação suficiente e mostra um uso descuidado de LLM
Para verificar o restante, é preciso conhecimento especializado e experimentos de reprodução
Se isso se espalhar, há o risco de abalar a própria base de confiança da pesquisa
Mas nesse caso ficaram
Acho que uma alucinação na bibliografia é um forte sinal de que o artigo inteiro foi escrito com IA
Bastaria uma checagem de DOI para filtrar isso, mas hoje a validação de citações não é um procedimento central no processo de revisão
O modelo de confiança que ainda trata citações como ‘texto narrativo’ não escala mais
Na Duke University, estou trabalhando em um projeto para transformar citações e validação em uma infraestrutura verificável por máquina (Liberata)
Na verdade, remover os ‘casos inofensivos’ teria sido ainda mais enganoso
O mais honesto é deixar os dados falarem por si
Parece que esse fenômeno vai causar um impacto sério na pesquisa científica
Já existe o problema de manipulação de dados, e se LLMs começarem a produzir artigos convincentes, a situação vai piorar
Ainda assim, isso talvez faça com que a reprodutibilidade (reproducibility) passe a ser tratada com mais seriedade
Quase nenhuma agência financia uma proposta do tipo “precisamos de 2 anos e 1 milhão de dólares para verificar um artigo suspeito do ano passado”
Sem mudar a estrutura de distribuição de recursos para a ciência, vai ser difícil resolver isso
Se a avaliação é pelo número de artigos, surgem enxurradas de trabalhos ruins; se é pelo número de citações, só se incentiva pesquisa orientada a descobertas
Estudos de reprodução recebem poucas citações e, no fim, como reputação e sustento dependem de ‘descobertas’, ninguém investe em reprodução
Projetos como o Liberata tentam deslocar a cultura de publicação do foco em ‘novidade’ para o foco em ‘validação e reprodução’
Se essa mudança acontecer, o caos atual pode acabar sendo um processo de correção necessário
É a visão de que, mesmo se todos os artigos se tornassem reproduzíveis, os problemas fundamentais da ciência não seriam resolvidos
Texto relacionado: Replication studies can’t fix science
A NeurIPS declarou que a presença de citações alucinadas (reference hallucination) não torna automaticamente o artigo inteiro inválido
Segundo a matéria completa da Fortune, o uso de LLM está evoluindo rapidamente e, em 2025, os revisores receberam orientações para marcar alucinações
A posição deles é que, mesmo que 1,1% dos artigos tenha erros de citação, isso não invalida necessariamente o conteúdo do trabalho
Dá a impressão de escolher a explicação mais inofensiva possível para encobrir o problema inteiro
A ciência já vive uma crise de reprodutibilidade, e agora ainda se soma o problema das alucinações
Com a influência crescente das empresas privadas, o futuro da ciência aberta parece sombrio
Nem mesmo retratações trazem prejuízo real, e a estrutura é tal que o valor esperado da má conduta é positivo
Se os incentivos não mudarem, isso só tende a piorar
Deixar um LLM cuidar das citações acaba abrindo caminho para deixá-lo também interpretar os dados, e isso pode gerar resultados alucinados
Ironicamente, artigos científicos incluem revisão de literatura para manter um diálogo de conhecimento com pesquisas anteriores
Manipular citações com LLM não é ficar ‘sobre os ombros de gigantes’, mas sim sobre os ombros de uma ilusão
Em 2024, recebi numa revisão da WACV um parecer totalmente escrito por IA
O revisor preencheu quatro caixas de texto (resumo, pontos fortes, pontos fracos e avaliação geral) com quatro pareceres completamente diferentes, que se contradiziam entre si
Esse tipo de situação acontece por sobrecarga dos revisores, e são necessários mais voluntários
(Se você pode revisar artigos, recomendo entrar em contato diretamente com o program chair da conferência de sua preferência)
Alguns artigos colocam nomes falsos nas citações, como ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’, e mesmo assim ninguém percebe
Para um doutorando que publica seu primeiro paper na NeurIPS, a recompensa econômica é enorme
A maioria dos estágios em big tech trata artigos como primeiro autor na NeurIPS/ICML/ICLR praticamente como requisito
Depois de passar por isso uma vez, o salário pode dobrar ou triplicar, e não é exagero dizer que a carreira se abre
Não surpreende que esse tipo de fraude apareça num ambiente assim
Um paper na NeurIPS já pode qualificar alguém para cargo de pesquisa mesmo sem doutorado, com salários acima de 300 mil dólares
Se for Spotlight ou apresentação Oral, esse valor pode chegar a sete dígitos
Todos concordam que a estrutura atual de incentivos produz esse tipo de comportamento
Nesse caso, talvez devêssemos usar o ‘porrete’ em vez da ‘cenoura’
A proposta é impor sanções no nível de encerrar a carreira quando forem detectadas alucinações de LLM ou manipulação de dados
Ferramentas de detecção de IA ainda não são confiáveis, e também existem erros simples de BibTeX ou falhas introduzidas durante correções gramaticais
Punições severas só seriam justificáveis quando ficasse comprovada uma má conduta intencional, como manipulação explícita de dados
Seria interessante analisar quanto de fabricação de fontes já existia em artigos anteriores a 2020
Eu não confio totalmente nem em LLMs nem em detectores de IA
A diferença é que agora sua frequência apenas acelerou
O problema dos erros de citação vai desaparecer quando o custo de busca por IA e coleta de dados ficar 100 vezes mais barato do que hoje
Mas, quando isso acontecer, talvez já seja difícil até distinguir se um artigo escrito por IA reflete a realidade,
e entraremos numa era parecida com a de um ‘espelho estocástico (stochastic mirror)’