Nova política do arXiv: banimento de 1 ano por citações alucinadas

(twitter.com/tdietterich)

5 pontos por GN⁺ 2026-05-15 | 1 comentários | Compartilhar no WhatsApp

O Código de Conduta do arXiv estabelece que figurar como autor de um artigo significa assumir responsabilidade por todo o trabalho, independentemente de como o conteúdo foi gerado
Se linguagem inadequada, conteúdo plagiado, conteúdo enviesado, erros, enganos, referências incorretas ou conteúdo enganoso produzido por ferramentas de IA generativa forem incluídos em um trabalho científico, a responsabilidade é dos autores
O arXiv entende que, se houver evidência clara no envio de que os autores não verificaram a saída gerada por um LLM, nenhum conteúdo daquele artigo pode ser considerado confiável
A sanção é banimento de 1 ano do arXiv e, depois disso, para voltar a submeter ao arXiv, o trabalho primeiro deverá ser aceito em um venue acadêmico de revisão por pares com boa reputação
A evidência clara inclui referências alucinadas e metacomentários do LLM
- Ex.: “here is a 200 word summary; would you like me to make any changes?”
- Ex.: “the data in this table is illustrative, fill it in with the real numbers from your experiments”

1 comentários

GN⁺ 2026-05-15

Comentários do Hacker News

Se a punição de banimento de 1 ano do arXiv vier seguida da condição de que as submissões posteriores primeiro precisem ser aceitas por um veículo respeitável com revisão por pares, isso seria muito bom para a ciência
O arXiv é gratuito, mas está mais para privilégio do que para direito
Só que isso não aparece com clareza em https://info.arxiv.org/help/policies/index.html, então talvez ainda esteja em fase de planejamento, ou talvez eu não tenha procurado direito
Como um doutor disse, o problema principal de uma máquina do juízo final é que não adianta escondê-la
- Aposto que, depois que este post subiu, alguém já improvisou um verificador de referências e está pensando em vender por assinatura
  Serve para conferir referências, mas provavelmente não vai reduzir muito a ciência ruim que vem junto com referências alucinadas
- Na minha opinião, isso parece excessivo
  O arXiv nem verifica as submissões com tanto cuidado assim, então como saberiam?
  Falam em “erros, enganos”, mas só verificam por sistema automático se os requisitos básicos foram cumpridos e às vezes passam por uma revisão humana superficial; é impossível verificar todas as referências em escala
  Seria como tentar fazer algo parecido com revisão por pares num repositório de preprints que recebe 100 vezes mais volume do que periódicos
  Além disso, há uma diferença enorme entre postar no arXiv e passar por revisão por pares
  Pessoalmente, em matemática, já devo ter passado de dez rejeições em revisão por pares, mas publiquei no arXiv math sem problema
  A revisão por pares não vê só se é novo e correto, mas também se “é interessante para a comunidade matemática”, e isso é inerentemente subjetivo e muito mais difícil do que conseguir publicar no arXiv
  Um professor famoso de teoria dos números elogiou meu artigo ao me endossar, e outro professor também recomendou por e-mail que eu publicasse, mas mesmo assim fui rejeitado 3 vezes e ainda estou esperando
  Exigir publicação em periódico com revisão por pares pode fechar o arXiv para sempre para muitos pesquisadores e ainda contraria a proposta de preprint
- Não concordo com a parte de que isso seria “muito bom para a ciência”
  É só uma citação alucinada, não é fraude nem nada do tipo
  Isso não reflete em nada o conteúdo nem a qualidade da pesquisa da pessoa
  Para um primeiro erro pequeno desses, um banimento de 1 ano já parece suficiente
  Pessoas erram, e muitas conseguem aprender com o erro
  Não há necessidade de destruir permanentemente o progresso de vida de alguém ou sua capacidade de contribuir para a humanidade só porque uma vez na vida uma IA alucinou uma referência bibliográfica
  Isso é punitivo, não reabilitador
É uma medida bem-vinda, mas no fundo eu queria mais que se resolvesse o problema de gerar com facilidade uma entrada BibTeX correta para o artigo citado
As informações de citação de um artigo específico podem vir de várias fontes, como periódicos de editoras diferentes, conferências e preprints
O mesmo artigo pode estar em vários lugares, como arXiv e site da conferência, com detalhes um pouco diferentes
Graças a ferramentas como o Zotero, ficou muito mais fácil extrair citações de páginas de publicação, mas os detalhes BibTeX extraídos ainda continuam problemáticos
Nome dos autores e título em geral saem certo, mas ainda é preciso conferir manualmente se editora, ano, volume/número, páginas, URL etc. foram extraídos corretamente e se aparecem direito na formatação LaTeX
Cada publicação também pode ter seu próprio estilo de citação
Como não existe uma forma unificada de extrair facilmente dados de citação consistentes, infelizmente isso pode levar as pessoas a pegar o atalho de usar dados de citação gerados por IA
Não tenho certeza se as citações alucinadas surgem no texto principal ou num arquivo BibTeX separado, então talvez eu esteja entendendo um pouco errado
- O Zotero também tem uma ferramenta online gratuita para gerar citações no formato desejado ou um arquivo BibTeX a partir de URL/DOI/ISBN etc.
  https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
- Pelo código de conduta, colocar seu nome como autor de um artigo significa que, independentemente de como o conteúdo foi gerado, cada autor assume total responsabilidade por todo esse conteúdo
A questão é como detectar em escala referências alucinadas
Não sei se será por amostragem manual ou validação automática de DOI
A direção da política parece correta, mas a aplicação é difícil
Bom
Se você não tem tempo de revisar com cuidado a saída de um LLM, eu também não tenho tempo de ler isso
- Infelizmente, com ou sem geração por LLM, provavelmente 99% dos artigos no arXiv não valem a leitura
  Você já pegou um aleatório e realmente foi a fundo nele?
Ainda não vejo aqui nada tratando da condição de “respeitável”
Com base em que critérios se define uma revisão respeitável?
Antes de aplicar esse tipo de punição, é preciso verificar com cuidado
Se alguém incluiu nomes sem permissão explícita e submeteu assim, todo mundo leva ban?
Concordo que é uma boa direção, se for implementado corretamente
- Além disso, até onde eu sei, dá para adicionar qualquer coautor sem verificação
  Nesse caso, daria para banir todo mundo do arXiv com um artigo de uma frase só
Ver os entusiastas exaltados de LLM de sempre no Twitter ficando irritados e respondendo a essa medida é um sinal bastante revelador
Assim como nos comentários de posts sobre contaminação por LLM, algumas pessoas simplesmente não conseguem aceitar que há gente que não gosta de LLM e ficam bravas com qualquer obstáculo, por menor que seja, à adoção acelerada
- É estranho que isso tenha sido cinzado
  Dá até a impressão de que o consenso do HN é que a adoção de LLM precisa ser acelerada de forma exaltada em qualquer lugar
  É ridículo, mas ao mesmo tempo muito a cara do HN
Bom. A literatura acadêmica está em estado de crise por causa de todo tipo de lixo de baixa qualidade
Responsabilizar pessoas por alucinações facilmente detectáveis só pode ser algo bom
- Não é um problema exclusivo da IA
  Fiz doutorado em física há uns 40 anos, e referências erradas já eram um problema naquela época
Um colega submeteu um artigo deixando no texto literalmente uma frase de lixo de IA e recebeu um pedido de revisão duríssimo
É preciso conferir o rascunho antes de submeter
Os revisores encontram isso
- Também é preciso conferir os comentários em LaTeX. O arXiv os deixa visíveis publicamente
  Eu sou usuário de leitor de tela, então normalmente leio artigos pelo TeX bruto, e já vi de tudo
  Termos pejorativos, insultos a revisores e professores, admissão de fraude, até instruções a coautores antes da submissão para cometer fraude adicional e encobrir fraudes anteriores
  Isso é bem menos comum do que parece, menos de 1% dos artigos, mas existe de fato
  Talvez fosse útil rodar uma detecção de fraude baseada em LLM no código-fonte TeX de novos artigos do arXiv
  Não pegaria tudo, mas poderia capturar alguns dos fraudadores mais idiotas
  Também há um lado positivo: dá para encontrar alegações mais fortes que não passaram pela revisão, explicações extras cortadas por limite de páginas da conferência e resultados experimentais que os autores não acharam valiosos o suficiente para incluir
  Essas coisas precisam ser vistas com muito cuidado, mas às vezes são realmente úteis
- Fico triste porque a sugestão aqui soa menos como não submeter lixo desde o início e mais como disfarçar o lixo para dificultar que o revisor encontre

Nova política do arXiv: banimento de 1 ano por citações alucinadas

Leituras relacionadas

1 comentários

Comentários do Hacker News