3 pontos por GN⁺ 2025-12-01 | 2 comentários | Compartilhar no WhatsApp
  • 21% dos pareceres de revisão de artigos da conferência internacional de aprendizado de máquina ICLR 2026 foram identificados como inteiramente redigidos por inteligência artificial
  • A ferramenta de detecção de IA da Pangram Labs analisou 75.800 pareceres e encontrou sinais de uso de IA em mais de metade deles
  • Alguns pesquisadores questionaram a autenticidade de pareceres com feedback anormalmente prolixo ou impreciso
  • A organização anunciou que vai checar automaticamente se houve violação da política de revisão relacionada ao uso de IA, enquanto conduz um processo para recuperar a confiança
  • O caso evidencia a urgência de garantir transparência e confiabilidade no processo de revisão acadêmica

O que foi revelado sobre o uso de IA na revisão de artigos do ICLR 2026

  • Aproximadamente 21% dos pareceres de revisão de artigos do ICLR 2026 foram inteiramente escritos por IA, com mais da metade apresentando influência de IA, segundo análise
    • A análise foi conduzida pela Pangram Labs, com base em 10.490 artigos e 75.800 pareceres
    • A Pangram divulgou os resultados usando uma ferramenta de detecção de texto gerado por IA
  • A conferência informou que vai revisar com ferramentas automatizadas se houve violação de política quanto ao uso de IA
    • O responsável pelo programa do ICLR 2026 afirmou que esse é o primeiro caso de grande escala em que um problema de revisão por IA ficou evidente

Questionamentos de pesquisadores e processo de investigação

  • Vários pesquisadores compartilham em redes sociais pareceres suspeitos de terem sido gerados por IA
    • Alguns pareceres continham “citações alucinadas” (hallucinated citations) e feedback vago e excessivamente prolixo
  • Graham Neubig, da Carnegie Mellon University, pediu verificação de possíveis pareceres gerados por IA após receber avaliações anômalas
    • Ele publicou um aviso de recompensa no X (ex-Twitter), e Max Spero, da Pangram Labs, respondeu oferecendo uma investigação completa
    • A Pangram disse ter escrito um código para analisar o texto de todas as submissões em apenas 12 horas

Resultados da análise da Pangram Labs

  • A ferramenta da Pangram funciona prevendo textos criados ou editados por LLM (Large Language Model)
    • Na análise, 15.899 pareceres foram classificados como inteiramente gerados por IA e 199 artigos (1%) também foram julgados como inteiramente escritos por IA
    • 61% dos artigos foram escritos por humanos, e em 9% havia mais da metade do texto com conteúdo gerado por IA
  • A Pangram submeteu seu próprio modelo como preprint ao ICLR 2026; algumas revisões desses próprios artigos também foram classificadas como geradas por IA

Reação dos pesquisadores

  • Desmond Elliott, da Universidade de Copenhague, citou que uma revisão de artigo que ele submeteu entendeu mal o resumo do trabalho e citou números incorretos
    • Seu aluno de doutorado estimou que essa revisão parecia ter sido escrita por um LLM
    • A análise da Pangram confirmou que esse parecer era, de fato, inteiramente gerado por IA
    • Aquele parecer deu a nota mais baixa, deixando o trabalho na fronteira entre aceito e rejeitado

Resposta da conferência e próximos desafios

  • A organização anunciou a adoção de ferramentas automatizadas de detecção de uso de IA, com foco em restaurar a confiabilidade da revisão
  • O responsável pelo programa afirmou que o processo atual torna evidente a necessidade de redefinir o conceito de confiança
  • O incidente aparece como um exemplo de que a IA já se infiltrou profundamente na revisão acadêmica, com a transparência na avaliação de pesquisa surgindo como questão central

2 comentários

 
yuntae 2025-12-01

Tem vários casos de reviews engraçados por aí.
https://reddit.com/r/MachineLearning/…

 
GN⁺ 2025-12-01
Opiniões do Hacker News
  • Acho que a dependência de IA na escrita está aumentando, mas a metodologia usada neste artigo parece mais uma divulgação da Pangram
    Detectores de IA em geral são pouco confiáveis e podem até prejudicar quem nunca usou um LLM
    Dá para ver discussões relacionadas neste link

    • Sou cofundador da Pangram. Fizemos avanços reais nessa área
      Se você está pensando em detectores antigos como o GPTZero, então não viu as melhorias recentes de desempenho
      Segundo este artigo de economistas da Universidade de Chicago, em 1.992 documentos escritos por humanos houve 0 falsos positivos, e a taxa de detecção de documentos de IA passou de 99%
    • Detectores de IA só são prejudiciais quando são usados para punir pessoas
      Usá-los para análise estatística, como neste estudo, não é problema
      Na prática, quase não há artigos escritos por IA, e é natural que ela tenha sido muito mais usada apenas nas reviews
    • Algumas pessoas desconfiam de LLMs, mas se o estudo confirma seus vieses, passam a aceitar LLMs de bom grado
      Esse duplo padrão é interessante
  • Independentemente de o número de 20% estar exato ou não, todo mundo sente a queda na qualidade das reviews nas principais conferências
    Em algumas áreas, existe de fato conluio entre revisores, às vezes com envolvimento até de ACs
    Hoje, ninguém mais revisa um artigo com cuidado só porque ‘é a coisa certa a fazer por princípio’

    • Antes, mesmo sem incentivos explícitos, as pessoas revisavam com consciência, mas essa cultura desapareceu por completo
    • Quando pesquisadores de IA estão sendo recrutados com salários enormes, é natural que o sistema fique distorcido
    • Isso também pode ser visto como uma espécie de ajuste de mercado
      Como há artigos demais feitos só para currículo, os revisores acabam ligando menos
  • Segundo a análise da Pangram, 21% das reviews da ICLR foram totalmente geradas por IA, e mais da metade continha traços de IA
    Mas fica a dúvida sobre o que exatamente conta como “evidência” e como se prova que algo foi gerado por IA

    • A palavra “evidência” foi inadequada. Mas análise estatística pode ser objetiva
      Essas ferramentas servem para esse propósito
    • Eles de fato escreveram este artigo explicando a metodologia
    • Talvez o próprio detector de IA seja uma IA
    • Eu também passo por problema parecido ao corrigir trabalhos de alunos
      Na maioria dos casos eu sinto que foi escrito por IA, mas não consigo provar, então não posso tomar nenhuma medida
    • Na verdade, não dá para diferenciar só pelo texto
      Sem informações adicionais, como metadados, nem faz sentido tentar decidir se foi um LLM que escreveu ou não
  • A manchete pode até ser verdadeira, mas a confiabilidade dos detectores de IA continua baixa
    Não há prova de que a ferramenta da Pangram tenha superado essa má reputação

    • Falando como cofundador da Pangram, nossa taxa de falsos positivos é de uma em dez mil
      Expliquei em detalhes neste post do blog
      Entre 10.202 reviews da ICLR 2022, 10.190 foram escritas por humanos, e só 12 tinham sinais de edição por IA
    • Artigos de conferência já seguem por natureza um estilo muito padronizado, então é difícil distinguir se houve IA ou não
    • Se nos artigos é 1%, mas nas reviews é 20%, então provavelmente é porque os revisores dependem mais de IA
      Não dá para condenar indivíduos, mas dá para ter quase certeza de que muitas reviews foram deixadas nas mãos da IA
  • Ao ver a manchete do artigo dizendo que “21% das reviews foram geradas por IA”, minha reação foi achar que o número era até mais baixo do que eu esperava

    • Se 21% foram totalmente geradas por IA, então isso já é má conduta evidente
      É como aquela ideia da investigação de acidentes em que ‘os buracos do queijo suíço se alinham’: o resultado do acúmulo de negligência profissional
  • No começo fiquei surpreso, mas 21% na verdade é um número surpreendentemente baixo
    Além disso, esse dado vem de uma empresa que vende detectores de IA, então também existe a possibilidade de falsos positivos

  • O ponto principal não é se a review foi escrita por IA, e sim a precisão da review

    • Não, esse não é o ponto principal
      A conferência se apresenta como ‘revisão por pares’, e por melhor que seja, IA não é um par
    • Se a pesquisa for de fato útil e correta, isso é mais importante
      Parece que a Pangram está tentando gerar indignação com detecção de IA e buscar clickbait
    • A realidade é esta
      1. um cientista faz um estudo enviesado
      2. o revisor usa IA para gerar uma review aparentemente plausível
      3. no fim, o próprio pesquisador precisa revisar de novo a review, criando um ciclo bizarro
  • No fim das contas, as primeiras vítimas do monstro criado pela IA são os próprios trabalhadores do conhecimento que a criaram, como programadores, pesquisadores e universidades

  • Esta conferência já foi aquela em que todos os revisores tiveram suas identidades expostas temporariamente por um bug do OpenReview
    Segundo esta matéria, depois disso as notas foram zeradas e novos ACs passaram a tomar as decisões novamente

  • Talvez no futuro seja melhor oferecer reviews de IA por padrão para todos os artigos, e deixar que revisores humanos complementem o resultado
    Assim, o revisor passa a avaliar o resultado da IA, e o autor também recebe um feedback previsível
    Claro que o revisor humano também pode voltar a usar IA, mas nesse caso o autor provavelmente fará o mesmo