Mais de 50 casos de alucinação detectados em submissões da ICLR 2026

(gptzero.me)

3 pontos por GN⁺ 2025-12-08 | 4 comentários | Compartilhar no WhatsApp

O GPTZero detectou mais de 50 erros de citação e informações falsas de autores em trabalhos submetidos à ICLR 2026.
Cada paper teve sua existência real e a correspondência das citações verificada junto com o link do OpenReview.
Em vários casos, observou-se a inclusão de autores inexistentes, ano incorreto e título de paper diferente.
Alguns papers coincidem parcialmente com trabalhos reais, mas possuem metadados detalhados distorcidos.
Casos que mostram que o problema de alucinação (hallucination) gerada por IA também está se espalhando em submissões acadêmicas.

Resultado da detecção de alucinações da GPTZero na ICLR 2026

A GPTZero realizou verificação automática de citações e dados de autoria em papers submetidos à ICLR 2026.
- Cada paper é apresentado com link do OpenReview, link de verificação da GPTZero e as respectivas informações de citação.
- Os resultados mostraram que mais de 50 casos apresentaram citação falsa ou autores inexistentes.

Casos de alucinação representativos

O paper TamperTok é real, mas todas as informações de autoria estão incorretas.
O paper MixtureVitae coincide com os 3 primeiros autores, mas os outros 7 autores não existem.
OrtSAE, Principled Policy Optimization, IMPQ e outros têm título ou autores que não correspondem a papers reais.
PDMBench tem um paper semelhante existente, mas com ano e título diferentes.
C3-OWD, GRF-LLM e outros foram classificados como parcialmente correspondentes.

Casos de divergência total

Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI e outros têm papers citados que não existem.
SAFE-LLM, Typed Chain-of-Thought, MANTA e outros têm papers semelhantes, porém com metadados incompatíveis.
AI-Assisted Medical Triage Assistant, QUART, KARMA e outros citam papers totalmente não relacionados.

Método de verificação e tipos de resultado

A GPTZero compara cada citação com bases de dados reais (por exemplo, arXiv, NeurIPS, ICLR, ACL etc.).
- Os resultados são classificados como "existente", "parcialmente correspondente", "não correspondente" e "falso autor".
- Algumas entradas são marcadas como paper real, mas autor, ano e título estão todos diferentes.

Significado e implicações

Muitas submissões da ICLR 2026 incluem o problema de alucinação em textos gerados por IA sem filtro.
Nos processos de redação de artigos acadêmicos, a necessidade de ferramentas automáticas de verificação de fatos é reforçada.
Os resultados da GPTZero mostram a necessidade de fortalecer sistemas de validação da confiabilidade de conteúdos gerados por IA.

4 comentários

dbs0829 2025-12-08

Já faz muito tempo que penso que os LLMs podem acabar atrapalhando, em vez de impulsionar, o progresso da humanidade, e parece que o problema que eu imaginava nesse contexto finalmente veio à tona. Reduzir a carga cognitiva parece ser algo quase viciante para as pessoas. Eu também faço pesquisa e, dentro da equipe, temos nos alertado de que, quanto mais usamos modelos de LLM, mais parece surgir o hábito de pensar menos. Provavelmente esse problema só vai se agravar. Como o volume cresce a um ponto difícil de cobrir apenas com revisão por pares, acho que vamos ter de encontrar outros métodos. Parece que o número de submissões de artigos em conferências renomadas tem aumentado bastante recentemente, e suspeito que seja por um motivo parecido.

shakespeares 2025-12-09

Concordo. Se continuar assim, parece que o cérebro humano vai continuar encolhendo.
No fim, o cenário em que a inteligência artificial passa a dominar os humanos talvez seja o pensamento mais avançado que conseguimos conceber agora. Daqui para frente, pode ser que nem consigamos mais chegar a esse pensamento e que exista apenas um intervalo de convergência, sem nenhuma nova revolução, até sermos simplesmente controlados pela IA.

shakespeares 2025-12-09

Será que ainda há espaço para mais avanços em AIs repetitivas e com níveis de conhecimento parecidos?
Se não, parece que o mundo vai apenas se encher de textos copiados de cópias humanas idênticas, e separar o joio do trigo nesse meio ficará ainda mais difícil.

GN⁺ 2025-12-08

Opinião no Hacker News

Acho que esse tipo de comportamento é uma clara conduta antiética profissional
Se um pesquisador meu fizesse isso, estaria correndo risco de demissão
Como revisor, se vejo o autor mentindo, não dá para confiar no artigo inteiro e, do ponto de vista ético, acho correto rejeitar imediatamente
Erros são comuns, mas isso é um problema de outra ordem
- Isso também parece ser uma questão de diferença cultural
  No Ocidente, tende-se a ver a honestidade individual como a base da confiança em toda a academia, mas no Oriente Médio, Índia e China há uma tendência maior de atribuir esse tipo de conduta à responsabilidade do periódico
  Sem entender essas diferenças, a colaboração fica muito confusa
Na minha experiência, o principal problema que reduz a qualidade dos artigos são as citações incorretas
Muito mais comum do que a citação inexistente é citar uma fonte que, na prática, não diz aquilo ou distorce o contexto
Encontrar esse tipo de erro exige ler e entender o texto original, então leva um tempo enorme
Isso não é um simples engano, mas causa uma erosão do conhecimento, então são necessárias sanções como “três advertências e exclusão”
- Isso pode inclusive ser uma área em que os LLMs sejam bons
  Dá para usá-los comparando as afirmações do artigo com a lista de referências para verificar automaticamente se elas realmente dão suporte ao que foi dito
- Mas alguns pesquisadores distorcem de propósito para produzir resultados que agradem financiadores (Exxon, Meta, Pfizer etc.)
  Nesses casos, não é mera negligência, mas manipulação motivada por conflito de interesses
- Citações falsas são só a ponta do iceberg, e o abuso de citações é um problema muito mais antigo e grave
Mais do que a IA ser o problema, acho que o problema é preguiça e descuido
Se um cientista escreve um artigo com LLM contendo citações falsas, então ele é um mau cientista
Se não houver sanção social para esse tipo de conduta, ela acaba sendo tolerada
- Sou eletricista industrial, e um trabalho elétrico malfeito só pode ser identificado por um especialista
  Verificação técnica exige um inspetor experiente
- Mas dizer que “a IA não é o problema” soa como a lógica evasiva dos debates sobre armas: “o problema não é a arma, é a pessoa”
  No fim, acho que a própria IA é o problema
- Seguindo a analogia do carpinteiro, uma estante feita por LLM parece boa por fora, mas estruturalmente é frágil
  Justamente por ter boa aparência, ela acaba escondendo melhor o problema
- Eu também procuro artigos com o Gemini Pro, mas as citações continuam péssimas
  Ainda assim, no último ano as alucinações diminuíram e, se limitar a artigos verificados, dá para usar razoavelmente bem
  Mas, para que os pesquisadores não dependam dessas ferramentas, antes de tudo precisa mudar a estrutura de competição permanente por financiamento
- Como disse Bruce Schneier, qualquer um pode criar um algoritmo que ele mesmo não consegue verificar
  Com LLMs é a mesma coisa: eles devolvem exatamente a resposta que o usuário queria e reforçam o viés de confirmação
  Não acho que exista uma forma segura de usar LLMs em pesquisa científica
Quando você realmente lê os artigos, em muitos casos não é só o texto que foi escrito por IA, mas a própria ideia foi gerada por IA
Na superfície parece plausível, mas o conteúdo é absurdo
Se um pesquisador de verdade entrou nessa lista por causa de um simples erro no arquivo .bib, é lamentável
Avi Loeb (físico teórico de Harvard) mencionou que os casos de estudantes citando artigos inexistentes aumentaram muito
Eles acreditam diretamente na ficção criada por LLMs e nem sequer verificam
Artigo relacionado: How AI is making us dumber
- Mas Loeb também é conhecido por suas alegações sobre OVNIs, então há controvérsia sobre sua credibilidade
- Há quem o considere uma figura pouco confiável
- Acho que esse fenômeno vem de uma cultura de fuga de responsabilidade na liderança
  Dar um mau exemplo no topo e depois repreender quem está embaixo é uma forma ruim de educar
Fico me perguntando se esse estudo tratou todas as citações incorretas como alucinações de LLM
É preciso uma análise de linha de base para saber se esse tipo de erro já existia em artigos anteriores aos LLMs
- O artigo tem uma seção chamada ‘Defining Hallucitations’, onde explica a definição de citação falsa e o problema de falsos positivos
  Fico curioso para saber que resultado daria aplicar a mesma ferramenta a artigos da década de 2010
- Eu também tive pequenos erros em arquivos .bib na época da pós-graduação
  Como a maioria dos periódicos valida citações com base em DOI, seria preciso fazer essa comparação também com artigos antigos
- Quando se olha para artigos publicados de forma aberta, os traços de geração por IA ficam bem claros
  Basta jogar o tema que o LLM produz artigos parecidos num nível impressionante
- Na verdade, antes dos LLMs as pessoas também erravam, e livros e artigos sempre tiveram muitos erros
  A causa é um sistema de conhecimento humano imperfeito, não um problema exclusivo dos LLMs
- Resumindo, a ferramenta deles de fato realiza esse tipo de verificação
O objetivo da revisão por pares não é apenas detectar erros, mas avaliar novidade e grau de acabamento
Então é preciso criar incentivos para evitar negligência
Por exemplo, editoras poderiam criar um sistema de recompensas para quem encontrar negligência grave,
ou manter um Wall of Shame expondo pesquisadores repetidamente negligentes
- Ou então adotar um sistema que rode uma checagem automática de citações no envio do artigo e informe os erros em um ou dois dias
Uso ferramentas de gerenciamento de citações como o Zotero há 15 anos, e ainda me surpreende que existam tantas citações com nome de autor errado
Se o envio do arquivo .bib fosse obrigatório, já daria para fazer um controle básico de qualidade via validação por DOI
É chocante que nem esse tipo de verificação básica seja feito
- Mas o Zotero também não é perfeito
  Às vezes o próprio autor cita o próprio artigo de forma errada, e mesmo quando o DOI está certo, erros de digitação no nome do autor são comuns
  As ferramentas aumentaram o número de citações e reduziram a taxa de erro, mas ainda assim quase sempre sobra pelo menos um erro por artigo
Se, entre 20 mil submissões, só 300 foram verificadas e mesmo assim já apareceram centenas de artigos com alucinações, então a escala real deve ser muito maior
- 20 mil submissões para uma única conferência já é, por si só, uma escala anormal
As alucinações dos LLMs são uma característica de projeto
No processo de gerar saídas estatisticamente plausíveis, citações falsas surgem naturalmente
Mas é tecnicamente possível fazer a máquina gerar citações reais
Só que os LLMs atuais não estão produzindo o que pedimos, que é “geração precisa de citações”, e sim resultados que apenas se parecem com isso