1 pontos por GN⁺ 2026-01-23 | 1 comentários | Compartilhar no WhatsApp
  • A ferramenta Hallucination Check, da GPTZero, analisou 4.841 dos 5.290 artigos aceitos na NeurIPS 2025 e identificou mais de 100 “citações alucinadas” (hallucinated citations)
  • Em vários artigos, foram encontrados sinais de geração por IA, como autores inexistentes, DOI e URLs incorretos e títulos fabricados
  • A GPTZero define esse tipo de erro como “vibe citing”, descrevendo-o como uma forma de citação montada para parecer plausível por meio da mistura e modificação de informações reais de artigos
  • Todos os casos passaram por verificação de especialistas humanos, e a ferramenta foi descrita como tendo taxa muito baixa de falsos negativos (99% de detecção), embora marque casos suspeitos de forma conservadora
  • O caso é visto como um exemplo que mostra a necessidade de automatizar a detecção de erros de citação gerados por IA no processo de redação e validação de artigos científicos

Resultado da análise da GPTZero sobre os artigos da NeurIPS 2025

  • A GPTZero examinou 4.841 dos 5.290 artigos aceitos na NeurIPS 2025 e encontrou mais de 100 citações alucinadas
    • Cada caso foi validado por humanos, confirmando que se tratava de citações que de fato não existem
    • Como exemplo, foram encontradas várias citações com nomes de periódicos, autores e DOI inexistentes
  • A GPTZero classifica esses erros de citação como vestígios de geração por IA (vibe citing)
    • A forma mais comum são citações falsas criadas pela combinação ou alteração de títulos e autores reais
    • Algumas usam títulos parecidos com os de artigos reais, mas foram identificadas por inconsistências de ano, fonte e autoria

Definição e tipos de “vibe citing”

  • A GPTZero define “vibe citing” como “uma citação criada por IA generativa a partir da combinação e modificação de fontes reais”
    • Isso inclui casos com nomes de autores, títulos, editoras e DOI manipulados ou sintetizados
    • Em alguns casos, há citação parcial de artigos reais ou até a criação de nomes falsos de periódicos
  • Em contrapartida, erros simples como typos, links quebrados ou números de página ausentes são considerados erros humanos e ficam de fora
  • A GPTZero apresenta as diferenças entre citações reais, defeituosas e alucinadas em uma tabela comparativa
    • Ex.: transformar o artigo “Deep learning” em “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” é classificado como citação alucinada

Funções da ferramenta Hallucination Check

  • O Hallucination Check é um sistema de detecção baseado em IA que automatiza a verificação de citações
    • Ele sinaliza automaticamente citações que não podem ser verificadas online
    • Também ajuda autores, editores e revisores a revisar rapidamente erros de citação
  • Etapas de uso
    1. O autor faz uma checagem automática das citações do artigo antes do envio
    2. O revisor identifica rapidamente citações não verificadas
    3. Editoras de conferências e periódicos podem usar a ferramenta junto com o AI Detector para detectar ao mesmo tempo indícios de escrita por IA e erros de citação

Precisão de validação da GPTZero

  • O Hallucination Check tem taxa muito baixa de falsos negativos (99% de precisão de detecção)
    • Ou seja, a chance de deixar passar uma citação realmente alucinada é extremamente baixa
    • Em contrapartida, a taxa de falsos positivos pode ser um pouco mais alta devido à detecção conservadora
  • A GPTZero afirma ter encontrado dezenas de erros de citação gerados por IA com o mesmo método em casos como a ICLR 2026 e relatórios da Deloitte

Significado para a academia e o ecossistema de publicação

  • O caso da NeurIPS 2025 expõe o problema da queda na confiabilidade das citações, em paralelo à expansão do uso de ferramentas de IA na redação de artigos
  • A GPTZero está colaborando com o comitê organizador da ICLR para construir um sistema automático de validação de artigos submetidos no futuro
  • A expectativa é que essas iniciativas levem a mais eficiência e transparência na revisão de artigos e ao fortalecimento da verificação de conteúdo gerado por IA

1 comentários

 
GN⁺ 2026-01-23
Comentários no Hacker News
  • Eu verifiquei aleatoriamente um artigo do Google no qual um colega participou como coautor
    O artigo apontado como problemático era um paper da ICLR 2024, e dois autores citados estavam faltando enquanto outro (Kyle Richardson) foi incluído incorretamente
    Essa citação estava na parte de contexto, não no núcleo do artigo, e é bem provável que tenha sido apenas um erro de digitação gerado durante o processo de autocompletar com IA
    Pode haver casos graves no conjunto de dados, mas o que eu vi foi um erro pequeno que poderia ser corrigido imediatamente com uma checagem de DOI
    A inclusão desses artigos com ‘erro único’ parece ter sido intencional para maximizar o efeito de divulgação do produto por parte dos autores

    • Esse tipo de erro é um sinal típico de alucinação facilmente verificável até por não especialistas
      O problema é que não dá para saber se esse é o único erro
      A existência desse tipo de falha indica que o artigo foi submetido sem validação suficiente e mostra um uso descuidado de LLM
      Para verificar o restante, é preciso conhecimento especializado e experimentos de reprodução
      Se isso se espalhar, há o risco de abalar a própria base de confiança da pesquisa
    • A análise que faltou foi comparar com conferências anteriores aos LLMs (2022~2023) para mostrar a taxa de falsos positivos da ferramenta
    • Normalmente, ao copiar e colar as referências de um paper, os nomes dos autores não ficam errados
      Mas nesse caso ficaram
      Acho que uma alucinação na bibliografia é um forte sinal de que o artigo inteiro foi escrito com IA
    • É interessante como esse tipo de erro surge com facilidade e passa sem ser detectado
      Bastaria uma checagem de DOI para filtrar isso, mas hoje a validação de citações não é um procedimento central no processo de revisão
      O modelo de confiança que ainda trata citações como ‘texto narrativo’ não escala mais
      Na Duke University, estou trabalhando em um projeto para transformar citações e validação em uma infraestrutura verificável por máquina (Liberata)
    • Não me parece que o conjunto de dados dos autores faça afirmações sobre o impacto concreto das alucinações
      Na verdade, remover os ‘casos inofensivos’ teria sido ainda mais enganoso
      O mais honesto é deixar os dados falarem por si
  • Parece que esse fenômeno vai causar um impacto sério na pesquisa científica
    Já existe o problema de manipulação de dados, e se LLMs começarem a produzir artigos convincentes, a situação vai piorar
    Ainda assim, isso talvez faça com que a reprodutibilidade (reproducibility) passe a ser tratada com mais seriedade

    • A raiz do problema da reprodutibilidade é a falta de financiamento
      Quase nenhuma agência financia uma proposta do tipo “precisamos de 2 anos e 1 milhão de dólares para verificar um artigo suspeito do ano passado”
      Sem mudar a estrutura de distribuição de recursos para a ciência, vai ser difícil resolver isso
    • A maioria dos cientistas também reconhece a crise de reprodutibilidade, mas o problema é a estrutura de incentivos
      Se a avaliação é pelo número de artigos, surgem enxurradas de trabalhos ruins; se é pelo número de citações, só se incentiva pesquisa orientada a descobertas
      Estudos de reprodução recebem poucas citações e, no fim, como reputação e sustento dependem de ‘descobertas’, ninguém investe em reprodução
    • A IA talvez possa servir para expor esse problema estrutural
      Projetos como o Liberata tentam deslocar a cultura de publicação do foco em ‘novidade’ para o foco em ‘validação e reprodução’
      Se essa mudança acontecer, o caos atual pode acabar sendo um processo de correção necessário
    • Há quem argumente que a própria reprodutibilidade é superestimada
      É a visão de que, mesmo se todos os artigos se tornassem reproduzíveis, os problemas fundamentais da ciência não seriam resolvidos
      Texto relacionado: Replication studies can’t fix science
    • Fico curioso se o problema de artigos continuarem citando pesquisas já invalidadas foi resolvido
  • A NeurIPS declarou que a presença de citações alucinadas (reference hallucination) não torna automaticamente o artigo inteiro inválido
    Segundo a matéria completa da Fortune, o uso de LLM está evoluindo rapidamente e, em 2025, os revisores receberam orientações para marcar alucinações
    A posição deles é que, mesmo que 1,1% dos artigos tenha erros de citação, isso não invalida necessariamente o conteúdo do trabalho

    • Mas isso parece uma reação boa demais
      Dá a impressão de escolher a explicação mais inofensiva possível para encobrir o problema inteiro
      A ciência já vive uma crise de reprodutibilidade, e agora ainda se soma o problema das alucinações
      Com a influência crescente das empresas privadas, o futuro da ciência aberta parece sombrio
    • Sem punição, isso vai continuar acontecendo
      Nem mesmo retratações trazem prejuízo real, e a estrutura é tal que o valor esperado da má conduta é positivo
      Se os incentivos não mudarem, isso só tende a piorar
    • Há quem defenda que todos os artigos submetidos sejam verificados com ferramentas como o GPTZero e rejeitados imediatamente se houver alucinação
    • Um erro de citação não prova automaticamente que o conteúdo está errado, mas uma única manipulação destrói a confiança no todo
      Deixar um LLM cuidar das citações acaba abrindo caminho para deixá-lo também interpretar os dados, e isso pode gerar resultados alucinados
    • Acho que, se uma alucinação de LLM for encontrada uma única vez, o artigo deveria ser retratado e os autores deveriam ficar proibidos de submeter novos trabalhos
  • Ironicamente, artigos científicos incluem revisão de literatura para manter um diálogo de conhecimento com pesquisas anteriores
    Manipular citações com LLM não é ficar ‘sobre os ombros de gigantes’, mas sim sobre os ombros de uma ilusão

    • Por isso alguém brincou: “isso é ficar sobre os ombros da falsidade”
    • Em termos filosóficos, fica a pergunta: o LLM está criando novo lixo, ou apenas amplificando a estrutura existente de produção de lixo?
  • Em 2024, recebi numa revisão da WACV um parecer totalmente escrito por IA
    O revisor preencheu quatro caixas de texto (resumo, pontos fortes, pontos fracos e avaliação geral) com quatro pareceres completamente diferentes, que se contradiziam entre si
    Esse tipo de situação acontece por sobrecarga dos revisores, e são necessários mais voluntários
    (Se você pode revisar artigos, recomendo entrar em contato diretamente com o program chair da conferência de sua preferência)

    • A única reação possível foi: “uau...”
  • Alguns artigos colocam nomes falsos nas citações, como ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’, e mesmo assim ninguém percebe

    • Ainda assim, espero que ao menos sejam punidos quando forem descobertos
    • Alguém comentou com cinismo que “esse é o jeito do futuro”
  • Para um doutorando que publica seu primeiro paper na NeurIPS, a recompensa econômica é enorme
    A maioria dos estágios em big tech trata artigos como primeiro autor na NeurIPS/ICML/ICLR praticamente como requisito
    Depois de passar por isso uma vez, o salário pode dobrar ou triplicar, e não é exagero dizer que a carreira se abre
    Não surpreende que esse tipo de fraude apareça num ambiente assim

    • Na prática, o valor de mercado de um único artigo é muito maior
      Um paper na NeurIPS já pode qualificar alguém para cargo de pesquisa mesmo sem doutorado, com salários acima de 300 mil dólares
      Se for Spotlight ou apresentação Oral, esse valor pode chegar a sete dígitos
  • Todos concordam que a estrutura atual de incentivos produz esse tipo de comportamento
    Nesse caso, talvez devêssemos usar o ‘porrete’ em vez da ‘cenoura’
    A proposta é impor sanções no nível de encerrar a carreira quando forem detectadas alucinações de LLM ou manipulação de dados

    • Mas, quanto mais pesada a punição, mais é preciso garantir o devido processo (due process)
      Ferramentas de detecção de IA ainda não são confiáveis, e também existem erros simples de BibTeX ou falhas introduzidas durante correções gramaticais
      Punições severas só seriam justificáveis quando ficasse comprovada uma má conduta intencional, como manipulação explícita de dados
  • Seria interessante analisar quanto de fabricação de fontes já existia em artigos anteriores a 2020

    • Também tenho curiosidade sobre quantos artigos anteriores aos LLMs os detectores de IA classificam falsamente como escritos por IA
      Eu não confio totalmente nem em LLMs nem em detectores de IA
    • No fim, é bem possível que esse problema já existisse antes
      A diferença é que agora sua frequência apenas acelerou
  • O problema dos erros de citação vai desaparecer quando o custo de busca por IA e coleta de dados ficar 100 vezes mais barato do que hoje
    Mas, quando isso acontecer, talvez já seja difícil até distinguir se um artigo escrito por IA reflete a realidade,
    e entraremos numa era parecida com a de um ‘espelho estocástico (stochastic mirror)’