- 21% dos pareceres de revisão de artigos da conferência internacional de aprendizado de máquina ICLR 2026 foram identificados como inteiramente redigidos por inteligência artificial
- A ferramenta de detecção de IA da Pangram Labs analisou 75.800 pareceres e encontrou sinais de uso de IA em mais de metade deles
- Alguns pesquisadores questionaram a autenticidade de pareceres com feedback anormalmente prolixo ou impreciso
- A organização anunciou que vai checar automaticamente se houve violação da política de revisão relacionada ao uso de IA, enquanto conduz um processo para recuperar a confiança
- O caso evidencia a urgência de garantir transparência e confiabilidade no processo de revisão acadêmica
O que foi revelado sobre o uso de IA na revisão de artigos do ICLR 2026
- Aproximadamente 21% dos pareceres de revisão de artigos do ICLR 2026 foram inteiramente escritos por IA, com mais da metade apresentando influência de IA, segundo análise
- A análise foi conduzida pela Pangram Labs, com base em 10.490 artigos e 75.800 pareceres
- A Pangram divulgou os resultados usando uma ferramenta de detecção de texto gerado por IA
- A conferência informou que vai revisar com ferramentas automatizadas se houve violação de política quanto ao uso de IA
- O responsável pelo programa do ICLR 2026 afirmou que esse é o primeiro caso de grande escala em que um problema de revisão por IA ficou evidente
Questionamentos de pesquisadores e processo de investigação
- Vários pesquisadores compartilham em redes sociais pareceres suspeitos de terem sido gerados por IA
- Alguns pareceres continham “citações alucinadas” (hallucinated citations) e feedback vago e excessivamente prolixo
- Graham Neubig, da Carnegie Mellon University, pediu verificação de possíveis pareceres gerados por IA após receber avaliações anômalas
- Ele publicou um aviso de recompensa no X (ex-Twitter), e Max Spero, da Pangram Labs, respondeu oferecendo uma investigação completa
- A Pangram disse ter escrito um código para analisar o texto de todas as submissões em apenas 12 horas
Resultados da análise da Pangram Labs
- A ferramenta da Pangram funciona prevendo textos criados ou editados por LLM (Large Language Model)
- Na análise, 15.899 pareceres foram classificados como inteiramente gerados por IA e 199 artigos (1%) também foram julgados como inteiramente escritos por IA
- 61% dos artigos foram escritos por humanos, e em 9% havia mais da metade do texto com conteúdo gerado por IA
- A Pangram submeteu seu próprio modelo como preprint ao ICLR 2026; algumas revisões desses próprios artigos também foram classificadas como geradas por IA
Reação dos pesquisadores
- Desmond Elliott, da Universidade de Copenhague, citou que uma revisão de artigo que ele submeteu entendeu mal o resumo do trabalho e citou números incorretos
- Seu aluno de doutorado estimou que essa revisão parecia ter sido escrita por um LLM
- A análise da Pangram confirmou que esse parecer era, de fato, inteiramente gerado por IA
- Aquele parecer deu a nota mais baixa, deixando o trabalho na fronteira entre aceito e rejeitado
Resposta da conferência e próximos desafios
- A organização anunciou a adoção de ferramentas automatizadas de detecção de uso de IA, com foco em restaurar a confiabilidade da revisão
- O responsável pelo programa afirmou que o processo atual torna evidente a necessidade de redefinir o conceito de confiança
- O incidente aparece como um exemplo de que a IA já se infiltrou profundamente na revisão acadêmica, com a transparência na avaliação de pesquisa surgindo como questão central
2 comentários
Tem vários casos de reviews engraçados por aí.
https://reddit.com/r/MachineLearning/…
Opiniões do Hacker News
Acho que a dependência de IA na escrita está aumentando, mas a metodologia usada neste artigo parece mais uma divulgação da Pangram
Detectores de IA em geral são pouco confiáveis e podem até prejudicar quem nunca usou um LLM
Dá para ver discussões relacionadas neste link
Se você está pensando em detectores antigos como o GPTZero, então não viu as melhorias recentes de desempenho
Segundo este artigo de economistas da Universidade de Chicago, em 1.992 documentos escritos por humanos houve 0 falsos positivos, e a taxa de detecção de documentos de IA passou de 99%
Usá-los para análise estatística, como neste estudo, não é problema
Na prática, quase não há artigos escritos por IA, e é natural que ela tenha sido muito mais usada apenas nas reviews
Esse duplo padrão é interessante
Independentemente de o número de 20% estar exato ou não, todo mundo sente a queda na qualidade das reviews nas principais conferências
Em algumas áreas, existe de fato conluio entre revisores, às vezes com envolvimento até de ACs
Hoje, ninguém mais revisa um artigo com cuidado só porque ‘é a coisa certa a fazer por princípio’
Como há artigos demais feitos só para currículo, os revisores acabam ligando menos
Segundo a análise da Pangram, 21% das reviews da ICLR foram totalmente geradas por IA, e mais da metade continha traços de IA
Mas fica a dúvida sobre o que exatamente conta como “evidência” e como se prova que algo foi gerado por IA
Essas ferramentas servem para esse propósito
Na maioria dos casos eu sinto que foi escrito por IA, mas não consigo provar, então não posso tomar nenhuma medida
Sem informações adicionais, como metadados, nem faz sentido tentar decidir se foi um LLM que escreveu ou não
A manchete pode até ser verdadeira, mas a confiabilidade dos detectores de IA continua baixa
Não há prova de que a ferramenta da Pangram tenha superado essa má reputação
Expliquei em detalhes neste post do blog
Entre 10.202 reviews da ICLR 2022, 10.190 foram escritas por humanos, e só 12 tinham sinais de edição por IA
Não dá para condenar indivíduos, mas dá para ter quase certeza de que muitas reviews foram deixadas nas mãos da IA
Ao ver a manchete do artigo dizendo que “21% das reviews foram geradas por IA”, minha reação foi achar que o número era até mais baixo do que eu esperava
É como aquela ideia da investigação de acidentes em que ‘os buracos do queijo suíço se alinham’: o resultado do acúmulo de negligência profissional
No começo fiquei surpreso, mas 21% na verdade é um número surpreendentemente baixo
Além disso, esse dado vem de uma empresa que vende detectores de IA, então também existe a possibilidade de falsos positivos
O ponto principal não é se a review foi escrita por IA, e sim a precisão da review
A conferência se apresenta como ‘revisão por pares’, e por melhor que seja, IA não é um par
Parece que a Pangram está tentando gerar indignação com detecção de IA e buscar clickbait
No fim das contas, as primeiras vítimas do monstro criado pela IA são os próprios trabalhadores do conhecimento que a criaram, como programadores, pesquisadores e universidades
Esta conferência já foi aquela em que todos os revisores tiveram suas identidades expostas temporariamente por um bug do OpenReview
Segundo esta matéria, depois disso as notas foram zeradas e novos ACs passaram a tomar as decisões novamente
Talvez no futuro seja melhor oferecer reviews de IA por padrão para todos os artigos, e deixar que revisores humanos complementem o resultado
Assim, o revisor passa a avaliar o resultado da IA, e o autor também recebe um feedback previsível
Claro que o revisor humano também pode voltar a usar IA, mas nesse caso o autor provavelmente fará o mesmo