Nova política do arXiv: referências alucinadas levam a banimento de 1 ano
(twitter.com/tdietterich)- O Código de Conduta do arXiv determina que quem assina como autor é responsável por todo o artigo, independentemente de como o conteúdo foi gerado
- Mesmo que o artigo inclua linguagem inadequada, plágio, viés, erros ou referências incorretas produzidos por IA generativa, a responsabilidade continua sendo do autor
- O arXiv considera que, se houver evidência clara de que o autor não verificou a saída gerada por um LLM, não é possível confiar no artigo como um todo
- A sanção é proibição de uso do arXiv por 1 ano e, depois disso, novas submissões só poderão ser feitas após aceitação prévia em um venue acadêmico respeitável com revisão por pares
- Referências alucinadas ou metacomentários de LLM como “preencha com os números reais do experimento” são considerados evidência clara
Responsabilidade e sanções para autores no arXiv
- O Código de Conduta do arXiv estabelece que assinar como autor de um artigo significa assumir responsabilidade por todo o trabalho, independentemente da forma como o conteúdo foi gerado
- Se uma obra científica incluir linguagem inadequada, conteúdo plagiado, conteúdo enviesado, erros, enganos, referências incorretas ou conteúdo enganoso produzidos por ferramentas de IA generativa, a responsabilidade é do autor
- O arXiv entende que, se houver evidência clara dentro da submissão de que o autor não verificou o resultado gerado por um LLM, nenhuma parte desse artigo pode ser considerada confiável
- A sanção é proibição de uso do arXiv por 1 ano e, para voltar a submeter ao arXiv depois disso, será necessário que o trabalho tenha sido previamente aceito em um venue acadêmico respeitável com revisão por pares
- Evidências claras incluem referências alucinadas e metacomentários do LLM
- Ex.: “here is a 200 word summary; would you like me to make any changes?”
- Ex.: “the data in this table is illustrative, fill it in with the real numbers from your experiments”
1 comentários
Comentários do Hacker News
Se a punição de banimento de 1 ano do arXiv vier seguida da condição de que as submissões posteriores primeiro precisem ser aceitas por um veículo respeitável com revisão por pares, isso seria muito bom para a ciência
O arXiv é gratuito, mas está mais para privilégio do que para direito
Só que isso não aparece com clareza em https://info.arxiv.org/help/policies/index.html, então talvez ainda esteja em fase de planejamento, ou talvez eu não tenha procurado direito
Como um doutor disse, o problema principal de uma máquina do juízo final é que não adianta escondê-la
Serve para conferir referências, mas provavelmente não vai reduzir muito a ciência ruim que vem junto com referências alucinadas
O arXiv nem verifica as submissões com tanto cuidado assim, então como saberiam?
Falam em “erros, enganos”, mas só verificam por sistema automático se os requisitos básicos foram cumpridos e às vezes passam por uma revisão humana superficial; é impossível verificar todas as referências em escala
Seria como tentar fazer algo parecido com revisão por pares num repositório de preprints que recebe 100 vezes mais volume do que periódicos
Além disso, há uma diferença enorme entre postar no arXiv e passar por revisão por pares
Pessoalmente, em matemática, já devo ter passado de dez rejeições em revisão por pares, mas publiquei no arXiv math sem problema
A revisão por pares não vê só se é novo e correto, mas também se “é interessante para a comunidade matemática”, e isso é inerentemente subjetivo e muito mais difícil do que conseguir publicar no arXiv
Um professor famoso de teoria dos números elogiou meu artigo ao me endossar, e outro professor também recomendou por e-mail que eu publicasse, mas mesmo assim fui rejeitado 3 vezes e ainda estou esperando
Exigir publicação em periódico com revisão por pares pode fechar o arXiv para sempre para muitos pesquisadores e ainda contraria a proposta de preprint
É só uma citação alucinada, não é fraude nem nada do tipo
Isso não reflete em nada o conteúdo nem a qualidade da pesquisa da pessoa
Para um primeiro erro pequeno desses, um banimento de 1 ano já parece suficiente
Pessoas erram, e muitas conseguem aprender com o erro
Não há necessidade de destruir permanentemente o progresso de vida de alguém ou sua capacidade de contribuir para a humanidade só porque uma vez na vida uma IA alucinou uma referência bibliográfica
Isso é punitivo, não reabilitador
É uma medida bem-vinda, mas no fundo eu queria mais que se resolvesse o problema de gerar com facilidade uma entrada BibTeX correta para o artigo citado
As informações de citação de um artigo específico podem vir de várias fontes, como periódicos de editoras diferentes, conferências e preprints
O mesmo artigo pode estar em vários lugares, como arXiv e site da conferência, com detalhes um pouco diferentes
Graças a ferramentas como o Zotero, ficou muito mais fácil extrair citações de páginas de publicação, mas os detalhes BibTeX extraídos ainda continuam problemáticos
Nome dos autores e título em geral saem certo, mas ainda é preciso conferir manualmente se editora, ano, volume/número, páginas, URL etc. foram extraídos corretamente e se aparecem direito na formatação LaTeX
Cada publicação também pode ter seu próprio estilo de citação
Como não existe uma forma unificada de extrair facilmente dados de citação consistentes, infelizmente isso pode levar as pessoas a pegar o atalho de usar dados de citação gerados por IA
Não tenho certeza se as citações alucinadas surgem no texto principal ou num arquivo BibTeX separado, então talvez eu esteja entendendo um pouco errado
https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
A questão é como detectar em escala referências alucinadas
Não sei se será por amostragem manual ou validação automática de DOI
A direção da política parece correta, mas a aplicação é difícil
Bom
Se você não tem tempo de revisar com cuidado a saída de um LLM, eu também não tenho tempo de ler isso
Você já pegou um aleatório e realmente foi a fundo nele?
Ainda não vejo aqui nada tratando da condição de “respeitável”
Com base em que critérios se define uma revisão respeitável?
Antes de aplicar esse tipo de punição, é preciso verificar com cuidado
Se alguém incluiu nomes sem permissão explícita e submeteu assim, todo mundo leva ban?
Concordo que é uma boa direção, se for implementado corretamente
Nesse caso, daria para banir todo mundo do arXiv com um artigo de uma frase só
Ver os entusiastas exaltados de LLM de sempre no Twitter ficando irritados e respondendo a essa medida é um sinal bastante revelador
Assim como nos comentários de posts sobre contaminação por LLM, algumas pessoas simplesmente não conseguem aceitar que há gente que não gosta de LLM e ficam bravas com qualquer obstáculo, por menor que seja, à adoção acelerada
Dá até a impressão de que o consenso do HN é que a adoção de LLM precisa ser acelerada de forma exaltada em qualquer lugar
É ridículo, mas ao mesmo tempo muito a cara do HN
Bom. A literatura acadêmica está em estado de crise por causa de todo tipo de lixo de baixa qualidade
Responsabilizar pessoas por alucinações facilmente detectáveis só pode ser algo bom
Fiz doutorado em física há uns 40 anos, e referências erradas já eram um problema naquela época
Um colega submeteu um artigo deixando no texto literalmente uma frase de lixo de IA e recebeu um pedido de revisão duríssimo
É preciso conferir o rascunho antes de submeter
Os revisores encontram isso
Eu sou usuário de leitor de tela, então normalmente leio artigos pelo TeX bruto, e já vi de tudo
Termos pejorativos, insultos a revisores e professores, admissão de fraude, até instruções a coautores antes da submissão para cometer fraude adicional e encobrir fraudes anteriores
Isso é bem menos comum do que parece, menos de 1% dos artigos, mas existe de fato
Talvez fosse útil rodar uma detecção de fraude baseada em LLM no código-fonte TeX de novos artigos do arXiv
Não pegaria tudo, mas poderia capturar alguns dos fraudadores mais idiotas
Também há um lado positivo: dá para encontrar alegações mais fortes que não passaram pela revisão, explicações extras cortadas por limite de páginas da conferência e resultados experimentais que os autores não acharam valiosos o suficiente para incluir
Essas coisas precisam ser vistas com muito cuidado, mas às vezes são realmente úteis