- O GPTZero detectou mais de 50 erros de citação e informações falsas de autores em trabalhos submetidos à ICLR 2026.
- Cada paper teve sua existência real e a correspondência das citações verificada junto com o link do OpenReview.
- Em vários casos, observou-se a inclusão de autores inexistentes, ano incorreto e título de paper diferente.
- Alguns papers coincidem parcialmente com trabalhos reais, mas possuem metadados detalhados distorcidos.
- Casos que mostram que o problema de alucinação (hallucination) gerada por IA também está se espalhando em submissões acadêmicas.
Resultado da detecção de alucinações da GPTZero na ICLR 2026
- A GPTZero realizou verificação automática de citações e dados de autoria em papers submetidos à ICLR 2026.
- Cada paper é apresentado com link do OpenReview, link de verificação da GPTZero e as respectivas informações de citação.
- Os resultados mostraram que mais de 50 casos apresentaram citação falsa ou autores inexistentes.
Casos de alucinação representativos
- O paper TamperTok é real, mas todas as informações de autoria estão incorretas.
- O paper MixtureVitae coincide com os 3 primeiros autores, mas os outros 7 autores não existem.
- OrtSAE, Principled Policy Optimization, IMPQ e outros têm título ou autores que não correspondem a papers reais.
- PDMBench tem um paper semelhante existente, mas com ano e título diferentes.
- C3-OWD, GRF-LLM e outros foram classificados como parcialmente correspondentes.
Casos de divergência total
- Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI e outros têm papers citados que não existem.
- SAFE-LLM, Typed Chain-of-Thought, MANTA e outros têm papers semelhantes, porém com metadados incompatíveis.
- AI-Assisted Medical Triage Assistant, QUART, KARMA e outros citam papers totalmente não relacionados.
Método de verificação e tipos de resultado
- A GPTZero compara cada citação com bases de dados reais (por exemplo, arXiv, NeurIPS, ICLR, ACL etc.).
- Os resultados são classificados como "existente", "parcialmente correspondente", "não correspondente" e "falso autor".
- Algumas entradas são marcadas como paper real, mas autor, ano e título estão todos diferentes.
Significado e implicações
- Muitas submissões da ICLR 2026 incluem o problema de alucinação em textos gerados por IA sem filtro.
- Nos processos de redação de artigos acadêmicos, a necessidade de ferramentas automáticas de verificação de fatos é reforçada.
- Os resultados da GPTZero mostram a necessidade de fortalecer sistemas de validação da confiabilidade de conteúdos gerados por IA.
4 comentários
Já faz muito tempo que penso que os LLMs podem acabar atrapalhando, em vez de impulsionar, o progresso da humanidade, e parece que o problema que eu imaginava nesse contexto finalmente veio à tona. Reduzir a carga cognitiva parece ser algo quase viciante para as pessoas. Eu também faço pesquisa e, dentro da equipe, temos nos alertado de que, quanto mais usamos modelos de LLM, mais parece surgir o hábito de pensar menos. Provavelmente esse problema só vai se agravar. Como o volume cresce a um ponto difícil de cobrir apenas com revisão por pares, acho que vamos ter de encontrar outros métodos. Parece que o número de submissões de artigos em conferências renomadas tem aumentado bastante recentemente, e suspeito que seja por um motivo parecido.
Concordo. Se continuar assim, parece que o cérebro humano vai continuar encolhendo.
No fim, o cenário em que a inteligência artificial passa a dominar os humanos talvez seja o pensamento mais avançado que conseguimos conceber agora. Daqui para frente, pode ser que nem consigamos mais chegar a esse pensamento e que exista apenas um intervalo de convergência, sem nenhuma nova revolução, até sermos simplesmente controlados pela IA.
Será que ainda há espaço para mais avanços em AIs repetitivas e com níveis de conhecimento parecidos?
Se não, parece que o mundo vai apenas se encher de textos copiados de cópias humanas idênticas, e separar o joio do trigo nesse meio ficará ainda mais difícil.
Opinião no Hacker News
Acho que esse tipo de comportamento é uma clara conduta antiética profissional
Se um pesquisador meu fizesse isso, estaria correndo risco de demissão
Como revisor, se vejo o autor mentindo, não dá para confiar no artigo inteiro e, do ponto de vista ético, acho correto rejeitar imediatamente
Erros são comuns, mas isso é um problema de outra ordem
No Ocidente, tende-se a ver a honestidade individual como a base da confiança em toda a academia, mas no Oriente Médio, Índia e China há uma tendência maior de atribuir esse tipo de conduta à responsabilidade do periódico
Sem entender essas diferenças, a colaboração fica muito confusa
Na minha experiência, o principal problema que reduz a qualidade dos artigos são as citações incorretas
Muito mais comum do que a citação inexistente é citar uma fonte que, na prática, não diz aquilo ou distorce o contexto
Encontrar esse tipo de erro exige ler e entender o texto original, então leva um tempo enorme
Isso não é um simples engano, mas causa uma erosão do conhecimento, então são necessárias sanções como “três advertências e exclusão”
Dá para usá-los comparando as afirmações do artigo com a lista de referências para verificar automaticamente se elas realmente dão suporte ao que foi dito
Nesses casos, não é mera negligência, mas manipulação motivada por conflito de interesses
Mais do que a IA ser o problema, acho que o problema é preguiça e descuido
Se um cientista escreve um artigo com LLM contendo citações falsas, então ele é um mau cientista
Se não houver sanção social para esse tipo de conduta, ela acaba sendo tolerada
Verificação técnica exige um inspetor experiente
No fim, acho que a própria IA é o problema
Justamente por ter boa aparência, ela acaba escondendo melhor o problema
Ainda assim, no último ano as alucinações diminuíram e, se limitar a artigos verificados, dá para usar razoavelmente bem
Mas, para que os pesquisadores não dependam dessas ferramentas, antes de tudo precisa mudar a estrutura de competição permanente por financiamento
Com LLMs é a mesma coisa: eles devolvem exatamente a resposta que o usuário queria e reforçam o viés de confirmação
Não acho que exista uma forma segura de usar LLMs em pesquisa científica
Quando você realmente lê os artigos, em muitos casos não é só o texto que foi escrito por IA, mas a própria ideia foi gerada por IA
Na superfície parece plausível, mas o conteúdo é absurdo
Se um pesquisador de verdade entrou nessa lista por causa de um simples erro no arquivo .bib, é lamentável
Avi Loeb (físico teórico de Harvard) mencionou que os casos de estudantes citando artigos inexistentes aumentaram muito
Eles acreditam diretamente na ficção criada por LLMs e nem sequer verificam
Artigo relacionado: How AI is making us dumber
Dar um mau exemplo no topo e depois repreender quem está embaixo é uma forma ruim de educar
Fico me perguntando se esse estudo tratou todas as citações incorretas como alucinações de LLM
É preciso uma análise de linha de base para saber se esse tipo de erro já existia em artigos anteriores aos LLMs
Fico curioso para saber que resultado daria aplicar a mesma ferramenta a artigos da década de 2010
Como a maioria dos periódicos valida citações com base em DOI, seria preciso fazer essa comparação também com artigos antigos
Basta jogar o tema que o LLM produz artigos parecidos num nível impressionante
A causa é um sistema de conhecimento humano imperfeito, não um problema exclusivo dos LLMs
O objetivo da revisão por pares não é apenas detectar erros, mas avaliar novidade e grau de acabamento
Então é preciso criar incentivos para evitar negligência
Por exemplo, editoras poderiam criar um sistema de recompensas para quem encontrar negligência grave,
ou manter um Wall of Shame expondo pesquisadores repetidamente negligentes
Uso ferramentas de gerenciamento de citações como o Zotero há 15 anos, e ainda me surpreende que existam tantas citações com nome de autor errado
Se o envio do arquivo .bib fosse obrigatório, já daria para fazer um controle básico de qualidade via validação por DOI
É chocante que nem esse tipo de verificação básica seja feito
Às vezes o próprio autor cita o próprio artigo de forma errada, e mesmo quando o DOI está certo, erros de digitação no nome do autor são comuns
As ferramentas aumentaram o número de citações e reduziram a taxa de erro, mas ainda assim quase sempre sobra pelo menos um erro por artigo
Se, entre 20 mil submissões, só 300 foram verificadas e mesmo assim já apareceram centenas de artigos com alucinações, então a escala real deve ser muito maior
As alucinações dos LLMs são uma característica de projeto
No processo de gerar saídas estatisticamente plausíveis, citações falsas surgem naturalmente
Mas é tecnicamente possível fazer a máquina gerar citações reais
Só que os LLMs atuais não estão produzindo o que pedimos, que é “geração precisa de citações”, e sim resultados que apenas se parecem com isso