1 pontos por GN⁺ 5 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • O Código de Conduta do arXiv determina que quem assina como autor é responsável por todo o artigo, independentemente de como o conteúdo foi gerado
  • Mesmo que o artigo inclua linguagem inadequada, plágio, viés, erros ou referências incorretas produzidos por IA generativa, a responsabilidade continua sendo do autor
  • O arXiv considera que, se houver evidência clara de que o autor não verificou a saída gerada por um LLM, não é possível confiar no artigo como um todo
  • A sanção é proibição de uso do arXiv por 1 ano e, depois disso, novas submissões só poderão ser feitas após aceitação prévia em um venue acadêmico respeitável com revisão por pares
  • Referências alucinadas ou metacomentários de LLM como “preencha com os números reais do experimento” são considerados evidência clara

Responsabilidade e sanções para autores no arXiv

  • O Código de Conduta do arXiv estabelece que assinar como autor de um artigo significa assumir responsabilidade por todo o trabalho, independentemente da forma como o conteúdo foi gerado
  • Se uma obra científica incluir linguagem inadequada, conteúdo plagiado, conteúdo enviesado, erros, enganos, referências incorretas ou conteúdo enganoso produzidos por ferramentas de IA generativa, a responsabilidade é do autor
  • O arXiv entende que, se houver evidência clara dentro da submissão de que o autor não verificou o resultado gerado por um LLM, nenhuma parte desse artigo pode ser considerada confiável
  • A sanção é proibição de uso do arXiv por 1 ano e, para voltar a submeter ao arXiv depois disso, será necessário que o trabalho tenha sido previamente aceito em um venue acadêmico respeitável com revisão por pares
  • Evidências claras incluem referências alucinadas e metacomentários do LLM
    • Ex.: “here is a 200 word summary; would you like me to make any changes?”
    • Ex.: “the data in this table is illustrative, fill it in with the real numbers from your experiments”

1 comentários

 
GN⁺ 5 시간 전
Comentários do Hacker News
  • Se a punição de banimento de 1 ano do arXiv vier seguida da condição de que as submissões posteriores primeiro precisem ser aceitas por um veículo respeitável com revisão por pares, isso seria muito bom para a ciência
    O arXiv é gratuito, mas está mais para privilégio do que para direito
    Só que isso não aparece com clareza em https://info.arxiv.org/help/policies/index.html, então talvez ainda esteja em fase de planejamento, ou talvez eu não tenha procurado direito
    Como um doutor disse, o problema principal de uma máquina do juízo final é que não adianta escondê-la

    • Aposto que, depois que este post subiu, alguém já improvisou um verificador de referências e está pensando em vender por assinatura
      Serve para conferir referências, mas provavelmente não vai reduzir muito a ciência ruim que vem junto com referências alucinadas
    • Na minha opinião, isso parece excessivo
      O arXiv nem verifica as submissões com tanto cuidado assim, então como saberiam?
      Falam em “erros, enganos”, mas só verificam por sistema automático se os requisitos básicos foram cumpridos e às vezes passam por uma revisão humana superficial; é impossível verificar todas as referências em escala
      Seria como tentar fazer algo parecido com revisão por pares num repositório de preprints que recebe 100 vezes mais volume do que periódicos
      Além disso, há uma diferença enorme entre postar no arXiv e passar por revisão por pares
      Pessoalmente, em matemática, já devo ter passado de dez rejeições em revisão por pares, mas publiquei no arXiv math sem problema
      A revisão por pares não vê só se é novo e correto, mas também se “é interessante para a comunidade matemática”, e isso é inerentemente subjetivo e muito mais difícil do que conseguir publicar no arXiv
      Um professor famoso de teoria dos números elogiou meu artigo ao me endossar, e outro professor também recomendou por e-mail que eu publicasse, mas mesmo assim fui rejeitado 3 vezes e ainda estou esperando
      Exigir publicação em periódico com revisão por pares pode fechar o arXiv para sempre para muitos pesquisadores e ainda contraria a proposta de preprint
    • Não concordo com a parte de que isso seria “muito bom para a ciência”
      É só uma citação alucinada, não é fraude nem nada do tipo
      Isso não reflete em nada o conteúdo nem a qualidade da pesquisa da pessoa
      Para um primeiro erro pequeno desses, um banimento de 1 ano já parece suficiente
      Pessoas erram, e muitas conseguem aprender com o erro
      Não há necessidade de destruir permanentemente o progresso de vida de alguém ou sua capacidade de contribuir para a humanidade só porque uma vez na vida uma IA alucinou uma referência bibliográfica
      Isso é punitivo, não reabilitador
  • É uma medida bem-vinda, mas no fundo eu queria mais que se resolvesse o problema de gerar com facilidade uma entrada BibTeX correta para o artigo citado
    As informações de citação de um artigo específico podem vir de várias fontes, como periódicos de editoras diferentes, conferências e preprints
    O mesmo artigo pode estar em vários lugares, como arXiv e site da conferência, com detalhes um pouco diferentes
    Graças a ferramentas como o Zotero, ficou muito mais fácil extrair citações de páginas de publicação, mas os detalhes BibTeX extraídos ainda continuam problemáticos
    Nome dos autores e título em geral saem certo, mas ainda é preciso conferir manualmente se editora, ano, volume/número, páginas, URL etc. foram extraídos corretamente e se aparecem direito na formatação LaTeX
    Cada publicação também pode ter seu próprio estilo de citação
    Como não existe uma forma unificada de extrair facilmente dados de citação consistentes, infelizmente isso pode levar as pessoas a pegar o atalho de usar dados de citação gerados por IA
    Não tenho certeza se as citações alucinadas surgem no texto principal ou num arquivo BibTeX separado, então talvez eu esteja entendendo um pouco errado

    • O Zotero também tem uma ferramenta online gratuita para gerar citações no formato desejado ou um arquivo BibTeX a partir de URL/DOI/ISBN etc.
      https://zbib.org/
  • https://xcancel.com/tdietterich/status/2055000956144935055

    • Pelo código de conduta, colocar seu nome como autor de um artigo significa que, independentemente de como o conteúdo foi gerado, cada autor assume total responsabilidade por todo esse conteúdo
  • A questão é como detectar em escala referências alucinadas
    Não sei se será por amostragem manual ou validação automática de DOI
    A direção da política parece correta, mas a aplicação é difícil

  • Bom
    Se você não tem tempo de revisar com cuidado a saída de um LLM, eu também não tenho tempo de ler isso

    • Infelizmente, com ou sem geração por LLM, provavelmente 99% dos artigos no arXiv não valem a leitura
      Você já pegou um aleatório e realmente foi a fundo nele?
  • Ainda não vejo aqui nada tratando da condição de “respeitável
    Com base em que critérios se define uma revisão respeitável?

  • Antes de aplicar esse tipo de punição, é preciso verificar com cuidado
    Se alguém incluiu nomes sem permissão explícita e submeteu assim, todo mundo leva ban?
    Concordo que é uma boa direção, se for implementado corretamente

    • Além disso, até onde eu sei, dá para adicionar qualquer coautor sem verificação
      Nesse caso, daria para banir todo mundo do arXiv com um artigo de uma frase só
  • Ver os entusiastas exaltados de LLM de sempre no Twitter ficando irritados e respondendo a essa medida é um sinal bastante revelador
    Assim como nos comentários de posts sobre contaminação por LLM, algumas pessoas simplesmente não conseguem aceitar que há gente que não gosta de LLM e ficam bravas com qualquer obstáculo, por menor que seja, à adoção acelerada

    • É estranho que isso tenha sido cinzado
      Dá até a impressão de que o consenso do HN é que a adoção de LLM precisa ser acelerada de forma exaltada em qualquer lugar
      É ridículo, mas ao mesmo tempo muito a cara do HN
  • Bom. A literatura acadêmica está em estado de crise por causa de todo tipo de lixo de baixa qualidade
    Responsabilizar pessoas por alucinações facilmente detectáveis só pode ser algo bom

    • Não é um problema exclusivo da IA
      Fiz doutorado em física há uns 40 anos, e referências erradas já eram um problema naquela época
  • Um colega submeteu um artigo deixando no texto literalmente uma frase de lixo de IA e recebeu um pedido de revisão duríssimo
    É preciso conferir o rascunho antes de submeter
    Os revisores encontram isso

    • Também é preciso conferir os comentários em LaTeX. O arXiv os deixa visíveis publicamente
      Eu sou usuário de leitor de tela, então normalmente leio artigos pelo TeX bruto, e já vi de tudo
      Termos pejorativos, insultos a revisores e professores, admissão de fraude, até instruções a coautores antes da submissão para cometer fraude adicional e encobrir fraudes anteriores
      Isso é bem menos comum do que parece, menos de 1% dos artigos, mas existe de fato
      Talvez fosse útil rodar uma detecção de fraude baseada em LLM no código-fonte TeX de novos artigos do arXiv
      Não pegaria tudo, mas poderia capturar alguns dos fraudadores mais idiotas
      Também há um lado positivo: dá para encontrar alegações mais fortes que não passaram pela revisão, explicações extras cortadas por limite de páginas da conferência e resultados experimentais que os autores não acharam valiosos o suficiente para incluir
      Essas coisas precisam ser vistas com muito cuidado, mas às vezes são realmente úteis
    • Fico triste porque a sugestão aqui soa menos como não submeter lixo desde o início e mais como disfarçar o lixo para dificultar que o revisor encontre