3 pontos por GN⁺ 2025-12-08 | 4 comentários | Compartilhar no WhatsApp
  • O GPTZero detectou mais de 50 erros de citação e informações falsas de autores em trabalhos submetidos à ICLR 2026.
  • Cada paper teve sua existência real e a correspondência das citações verificada junto com o link do OpenReview.
  • Em vários casos, observou-se a inclusão de autores inexistentes, ano incorreto e título de paper diferente.
  • Alguns papers coincidem parcialmente com trabalhos reais, mas possuem metadados detalhados distorcidos.
  • Casos que mostram que o problema de alucinação (hallucination) gerada por IA também está se espalhando em submissões acadêmicas.

Resultado da detecção de alucinações da GPTZero na ICLR 2026

  • A GPTZero realizou verificação automática de citações e dados de autoria em papers submetidos à ICLR 2026.
    • Cada paper é apresentado com link do OpenReview, link de verificação da GPTZero e as respectivas informações de citação.
    • Os resultados mostraram que mais de 50 casos apresentaram citação falsa ou autores inexistentes.

Casos de alucinação representativos

  • O paper TamperTok é real, mas todas as informações de autoria estão incorretas.
  • O paper MixtureVitae coincide com os 3 primeiros autores, mas os outros 7 autores não existem.
  • OrtSAE, Principled Policy Optimization, IMPQ e outros têm título ou autores que não correspondem a papers reais.
  • PDMBench tem um paper semelhante existente, mas com ano e título diferentes.
  • C3-OWD, GRF-LLM e outros foram classificados como parcialmente correspondentes.

Casos de divergência total

  • Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI e outros têm papers citados que não existem.
  • SAFE-LLM, Typed Chain-of-Thought, MANTA e outros têm papers semelhantes, porém com metadados incompatíveis.
  • AI-Assisted Medical Triage Assistant, QUART, KARMA e outros citam papers totalmente não relacionados.

Método de verificação e tipos de resultado

  • A GPTZero compara cada citação com bases de dados reais (por exemplo, arXiv, NeurIPS, ICLR, ACL etc.).
    • Os resultados são classificados como "existente", "parcialmente correspondente", "não correspondente" e "falso autor".
    • Algumas entradas são marcadas como paper real, mas autor, ano e título estão todos diferentes.

Significado e implicações

  • Muitas submissões da ICLR 2026 incluem o problema de alucinação em textos gerados por IA sem filtro.
  • Nos processos de redação de artigos acadêmicos, a necessidade de ferramentas automáticas de verificação de fatos é reforçada.
  • Os resultados da GPTZero mostram a necessidade de fortalecer sistemas de validação da confiabilidade de conteúdos gerados por IA.

4 comentários

 
dbs0829 2025-12-08

Já faz muito tempo que penso que os LLMs podem acabar atrapalhando, em vez de impulsionar, o progresso da humanidade, e parece que o problema que eu imaginava nesse contexto finalmente veio à tona. Reduzir a carga cognitiva parece ser algo quase viciante para as pessoas. Eu também faço pesquisa e, dentro da equipe, temos nos alertado de que, quanto mais usamos modelos de LLM, mais parece surgir o hábito de pensar menos. Provavelmente esse problema só vai se agravar. Como o volume cresce a um ponto difícil de cobrir apenas com revisão por pares, acho que vamos ter de encontrar outros métodos. Parece que o número de submissões de artigos em conferências renomadas tem aumentado bastante recentemente, e suspeito que seja por um motivo parecido.

 
shakespeares 2025-12-09

Concordo. Se continuar assim, parece que o cérebro humano vai continuar encolhendo.
No fim, o cenário em que a inteligência artificial passa a dominar os humanos talvez seja o pensamento mais avançado que conseguimos conceber agora. Daqui para frente, pode ser que nem consigamos mais chegar a esse pensamento e que exista apenas um intervalo de convergência, sem nenhuma nova revolução, até sermos simplesmente controlados pela IA.

 
shakespeares 2025-12-09

Será que ainda há espaço para mais avanços em AIs repetitivas e com níveis de conhecimento parecidos?
Se não, parece que o mundo vai apenas se encher de textos copiados de cópias humanas idênticas, e separar o joio do trigo nesse meio ficará ainda mais difícil.

 
GN⁺ 2025-12-08
Opinião no Hacker News
  • Acho que esse tipo de comportamento é uma clara conduta antiética profissional
    Se um pesquisador meu fizesse isso, estaria correndo risco de demissão
    Como revisor, se vejo o autor mentindo, não dá para confiar no artigo inteiro e, do ponto de vista ético, acho correto rejeitar imediatamente
    Erros são comuns, mas isso é um problema de outra ordem

    • Isso também parece ser uma questão de diferença cultural
      No Ocidente, tende-se a ver a honestidade individual como a base da confiança em toda a academia, mas no Oriente Médio, Índia e China há uma tendência maior de atribuir esse tipo de conduta à responsabilidade do periódico
      Sem entender essas diferenças, a colaboração fica muito confusa
  • Na minha experiência, o principal problema que reduz a qualidade dos artigos são as citações incorretas
    Muito mais comum do que a citação inexistente é citar uma fonte que, na prática, não diz aquilo ou distorce o contexto
    Encontrar esse tipo de erro exige ler e entender o texto original, então leva um tempo enorme
    Isso não é um simples engano, mas causa uma erosão do conhecimento, então são necessárias sanções como “três advertências e exclusão”

    • Isso pode inclusive ser uma área em que os LLMs sejam bons
      Dá para usá-los comparando as afirmações do artigo com a lista de referências para verificar automaticamente se elas realmente dão suporte ao que foi dito
    • Mas alguns pesquisadores distorcem de propósito para produzir resultados que agradem financiadores (Exxon, Meta, Pfizer etc.)
      Nesses casos, não é mera negligência, mas manipulação motivada por conflito de interesses
    • Citações falsas são só a ponta do iceberg, e o abuso de citações é um problema muito mais antigo e grave
  • Mais do que a IA ser o problema, acho que o problema é preguiça e descuido
    Se um cientista escreve um artigo com LLM contendo citações falsas, então ele é um mau cientista
    Se não houver sanção social para esse tipo de conduta, ela acaba sendo tolerada

    • Sou eletricista industrial, e um trabalho elétrico malfeito só pode ser identificado por um especialista
      Verificação técnica exige um inspetor experiente
    • Mas dizer que “a IA não é o problema” soa como a lógica evasiva dos debates sobre armas: “o problema não é a arma, é a pessoa”
      No fim, acho que a própria IA é o problema
    • Seguindo a analogia do carpinteiro, uma estante feita por LLM parece boa por fora, mas estruturalmente é frágil
      Justamente por ter boa aparência, ela acaba escondendo melhor o problema
    • Eu também procuro artigos com o Gemini Pro, mas as citações continuam péssimas
      Ainda assim, no último ano as alucinações diminuíram e, se limitar a artigos verificados, dá para usar razoavelmente bem
      Mas, para que os pesquisadores não dependam dessas ferramentas, antes de tudo precisa mudar a estrutura de competição permanente por financiamento
    • Como disse Bruce Schneier, qualquer um pode criar um algoritmo que ele mesmo não consegue verificar
      Com LLMs é a mesma coisa: eles devolvem exatamente a resposta que o usuário queria e reforçam o viés de confirmação
      Não acho que exista uma forma segura de usar LLMs em pesquisa científica
  • Quando você realmente lê os artigos, em muitos casos não é só o texto que foi escrito por IA, mas a própria ideia foi gerada por IA
    Na superfície parece plausível, mas o conteúdo é absurdo
    Se um pesquisador de verdade entrou nessa lista por causa de um simples erro no arquivo .bib, é lamentável

  • Avi Loeb (físico teórico de Harvard) mencionou que os casos de estudantes citando artigos inexistentes aumentaram muito
    Eles acreditam diretamente na ficção criada por LLMs e nem sequer verificam
    Artigo relacionado: How AI is making us dumber

    • Mas Loeb também é conhecido por suas alegações sobre OVNIs, então há controvérsia sobre sua credibilidade
    • Há quem o considere uma figura pouco confiável
    • Acho que esse fenômeno vem de uma cultura de fuga de responsabilidade na liderança
      Dar um mau exemplo no topo e depois repreender quem está embaixo é uma forma ruim de educar
  • Fico me perguntando se esse estudo tratou todas as citações incorretas como alucinações de LLM
    É preciso uma análise de linha de base para saber se esse tipo de erro já existia em artigos anteriores aos LLMs

    • O artigo tem uma seção chamada ‘Defining Hallucitations’, onde explica a definição de citação falsa e o problema de falsos positivos
      Fico curioso para saber que resultado daria aplicar a mesma ferramenta a artigos da década de 2010
    • Eu também tive pequenos erros em arquivos .bib na época da pós-graduação
      Como a maioria dos periódicos valida citações com base em DOI, seria preciso fazer essa comparação também com artigos antigos
    • Quando se olha para artigos publicados de forma aberta, os traços de geração por IA ficam bem claros
      Basta jogar o tema que o LLM produz artigos parecidos num nível impressionante
    • Na verdade, antes dos LLMs as pessoas também erravam, e livros e artigos sempre tiveram muitos erros
      A causa é um sistema de conhecimento humano imperfeito, não um problema exclusivo dos LLMs
    • Resumindo, a ferramenta deles de fato realiza esse tipo de verificação
  • O objetivo da revisão por pares não é apenas detectar erros, mas avaliar novidade e grau de acabamento
    Então é preciso criar incentivos para evitar negligência
    Por exemplo, editoras poderiam criar um sistema de recompensas para quem encontrar negligência grave,
    ou manter um Wall of Shame expondo pesquisadores repetidamente negligentes

    • Ou então adotar um sistema que rode uma checagem automática de citações no envio do artigo e informe os erros em um ou dois dias
  • Uso ferramentas de gerenciamento de citações como o Zotero há 15 anos, e ainda me surpreende que existam tantas citações com nome de autor errado
    Se o envio do arquivo .bib fosse obrigatório, já daria para fazer um controle básico de qualidade via validação por DOI
    É chocante que nem esse tipo de verificação básica seja feito

    • Mas o Zotero também não é perfeito
      Às vezes o próprio autor cita o próprio artigo de forma errada, e mesmo quando o DOI está certo, erros de digitação no nome do autor são comuns
      As ferramentas aumentaram o número de citações e reduziram a taxa de erro, mas ainda assim quase sempre sobra pelo menos um erro por artigo
  • Se, entre 20 mil submissões, só 300 foram verificadas e mesmo assim já apareceram centenas de artigos com alucinações, então a escala real deve ser muito maior

    • 20 mil submissões para uma única conferência já é, por si só, uma escala anormal
  • As alucinações dos LLMs são uma característica de projeto
    No processo de gerar saídas estatisticamente plausíveis, citações falsas surgem naturalmente
    Mas é tecnicamente possível fazer a máquina gerar citações reais
    Só que os LLMs atuais não estão produzindo o que pedimos, que é “geração precisa de citações”, e sim resultados que apenas se parecem com isso