2 pontos por GN⁺ 2025-05-17 | 1 comentários | Compartilhar no WhatsApp
  • Após a publicação do preprint do artigo “Artificial Intelligence, Scientific Discovery, and Product Innovation” no arXiv, em novembro de 2024, foram levantadas questões sobre a precisão e a integridade do estudo
  • O MIT conduziu uma investigação interna confidencial e, ao concluir que o artigo não era confiável, enviou oficialmente pedidos de retirada ao arXiv e ao The Quarterly Journal of Economics
  • Segundo uma carta pública em nome do Committee on Discipline do MIT, a instituição não confia de forma alguma na origem, confiabilidade e precisão dos dados do artigo, nem tem confiança nos próprios resultados da pesquisa
  • Pela política do arXiv, apenas os autores podem solicitar a retirada de um artigo, mas como o autor não o fez, o MIT apresentou um pedido oficial em seu lugar e deseja que o artigo seja retirado e claramente sinalizado o quanto antes

Impacto do artigo e resposta do MIT

  • Um preprint é uma pesquisa que não passou por peer review
  • O artigo em questão vem exercendo influência considerável nas discussões acadêmicas sobre IA e ciência
  • O MIT está promovendo a retirada formal para mitigar os efeitos colaterais de informações imprecisas sobre esse debate
  • O autor não é mais vinculado ao MIT

A importância da integridade em pesquisa

  • A integridade em pesquisa é um valor central do MIT e faz parte de sua missão principal
  • O MIT mantém políticas e procedimentos confidenciais para responder rapidamente a casos de má conduta em pesquisa
  • As políticas e procedimentos relacionados podem ser consultados no site oficial do MIT

Posição oficial dos docentes

  • Os professores Daron Acemoglu e David Autor foram mencionados em nota de rodapé no artigo e divulgaram a seguinte declaração oficial
    • O artigo é de autoria de um ex-aluno do segundo ano do doutorado em economia e, embora ainda não tenha sido publicado em um periódico revisado por pares, já vem sendo amplamente discutido na literatura sobre IA e ciência
    • Com o tempo, surgiram dúvidas sobre a validade da pesquisa, que foram reportadas aos departamentos responsáveis
    • Em fevereiro de 2024, o MIT conduziu uma investigação confidencial de acordo com suas políticas internas
    • Embora não possam divulgar os resultados devido a restrições de divulgação de informações, reforçam que não têm qualquer confiança na origem, confiabilidade e integridade dos dados e da pesquisa
    • O motivo para tornar isso público é que, mesmo sem ter sido publicado, o artigo já está influenciando discussões sobre o impacto da IA na ciência
    • O MIT considera essencial manter um registro de pesquisa preciso e deixa claro que não é apropriado basear discussões acadêmicas ou públicas nos resultados deste artigo

Conclusão e recomendações

  • O MIT recomenda à comunidade acadêmica e ao público que não utilizem esse artigo como referência acadêmica
  • Garantir a precisão e a confiabilidade da pesquisa é a prioridade máxima

1 comentários

 
GN⁺ 2025-05-17
Comentários do Hacker News
  • A discussão segue no formato de uma explicação de que pedidos de retirada no arXiv só podem ser feitos pelos autores, e que o MIT pediu ao autor que retirasse o artigo, mas isso ainda não aconteceu. A pessoa acha razoável a forma como o MIT está divulgando informações, protegendo a privacidade na medida do possível e ao mesmo tempo revelando um pouco de como a situação se desenrolou. Também menciona a suposição de que o autor pode ter imaginado deixar o artigo no arXiv, sair voluntariamente do MIT e seguir para novas oportunidades, sem esperar que o MIT publicasse uma posição oficial sobre isso

    • Também surge uma sugestão meio em tom de piada de que, se o autor entrou no arXiv com um e-mail institucional do MIT, talvez o MIT pudesse assumir o controle da conta e derrubar o artigo, com o adendo de que isso não é aconselhamento jurídico
  • Há a alegação de que o MIT está jogando toda a culpa no estudante e escondendo a própria negligência. O autor recebeu recomendações de professores famosos e influentes do MIT, e parece difícil acreditar que um doutorando do segundo ano conseguiria executar sozinho, sem contatos na indústria, uma fraude de pesquisa desse porte. Na visão apresentada, os números do resumo do artigo — "a IA descobriu 44% mais novos materiais, aumentou os pedidos de patente em 39% e a inovação downstream em 17%" — já parecem suspeitos só de bater o olho, à luz de como funciona a pesquisa industrial. Seriam números tão exagerados que qualquer noção básica já bastaria para perceber a fraude

    • Também confirmam que o autor criou um site falso e até registrou um domínio para parecer que havia trabalhado na empresa Corning. Por causa disso, houve até um caso em que a Corning precisou acionar a WIPO para obter a transferência compulsória do domínio

    • Compartilham também um vídeo de um seminário no Zoom em que o autor apresenta o próprio artigo. Revendo agora, dizem que chamou atenção o hábito de não olhar para a tela nem para a câmera ao mentir, e comentam com inquietação que esse tipo de mentira improvisada talvez já fosse um comportamento cotidiano

  • A primeira impressão compartilhada é que os gráficos do artigo parecem limpos demais, dando sensação de manipulação em vez de dados reais. Em especial, o artigo não consegue explicar como um doutorando do segundo ano, em maio de 2022 — apenas seis meses antes de o ChatGPT surgir para o mundo — teria convencido um laboratório experimental de materiais de uma grande empresa a conduzir um experimento com mil pessoas. A explicação do modelo também seria vaga, algo como GAN+diffusion jogado de forma superficial, sem detalhes concretos. Com base em experiência prática em grandes empresas, a pessoa afirma que uma adoção em larga escala desse tipo jamais acontece em tão pouco tempo

    • Também mencionam semelhança com a fraude do artigo de Michael LaCour, no sentido de que o desenho experimental já parece inviável no mundo real. Naquele caso também havia taxas de resposta e de recontato em painéis de pesquisa completamente fora do normal, e até empresas que teoricamente teriam capacidade de executar algo assim disseram que tais procedimentos não eram factíveis

    • Apontam ainda que o autor do artigo citou até um número de aprovação do MIT IRB, dizendo ter recebido autorização para experimentos com seres humanos, embora naquela época ele ainda nem tivesse ingressado no doutorado

    • Na sessão de perguntas e respostas, o autor afirmou ter usado GNN (redes neurais em grafos), e não GAN, mas também compartilham que o público da apresentação não parecia inclinado a questionar a validade do artigo com profundidade

    • Quando a replicação de um artigo é difícil e o campo em si é vasto, surge a dúvida de quando esse trabalho de fato poderia ser verificado, além da preocupação com quantos artigos fraudulentos podem existir nessa área. A pessoa diz, por experiência própria, que no campo de ML já viu bastante gente simplesmente inventando números

    • Também consideram sem sentido a alegação de que se obteve, por análise automática de texto, dados mensais de alocação de tempo de trabalho de cientistas quase constantes ao longo do ano. Se fossem reais, esses dados teriam uma qualidade absurdamente alta, num nível que na prática seria impossível

  • Diz-se que economistas renomados do MIT ficaram do lado daqueles que duvidavam da credibilidade do artigo, e que, ao tentar verificar casos de inovação em empresas reais e conhecidas do setor de materiais, não conseguiram resolver as divergências, levando o caso para investigação no MIT. A ideia é que expulsar apenas o aluno não resolve o problema, e que os professores que promoveram o artigo com entusiasmo também deveriam ao menos ter verificado o básico, caso estivessem realmente envolvidos na pesquisa: se existia mesmo esse misterioso laboratório com mil pessoas e se a ferramenta de IA estava de fato sendo usada

    • Critica-se o fato de que, entre as 21 pessoas listadas nos agradecimentos do artigo, nenhuma sequer desconfiou da origem dos dados. Uma delas chegou a publicar uma thread popular no Twitter sobre o estudo e, ao ser avisada recentemente do caso, respondeu apenas com um breve comentário de que "os dados do artigo parecem não ser confiáveis"

    • Há também um desabafo de que existem muitos professores famosos no meio acadêmico que mal leem os artigos direito, algo que a pessoa diz vivenciar pessoalmente. Não pode citar nomes, mas diz que, apesar das dificuldades, ao menos tem um bom coorientador, o que ajuda a manter alguma visão positiva

    • Quando perguntam qual era a fonte citada, respondem que era uma reportagem do Washington Post e outra do WSJ

  • Chamam atenção para o fato de que o artigo já foi citado quase 50 vezes. Em periódicos tradicionais do passado, ao menos ainda seria possível deixar alguma mensagem relacionada aos problemas do artigo, mas no caso do arXiv, ao seguir o rastro do texto, não há como perceber que existe controvérsia ou disputa em torno dele. Isso exporia uma fragilidade dos servidores de preprints

    • Esclarecem que a maioria dessas cerca de 50 citações veio de preprints no arXiv ou de lugares como ResearchGate. O número de citações em periódicos com revisão por pares seria uma medida mais realista. O arXiv seria basicamente um blog de PDFs sem revisão, com apenas um sistema leve de convites, o que oferece pouca proteção. Nesse contexto, também citam um caso antigo de um artigo estranho de criptografia

    • Dizem que essa fragilidade decorre justamente da ausência de revisão; o arXiv tem alguma moderação, mas não algo realmente confiável. Confiar num artigo ali significa confiar no autor ou revisar o conteúdo por conta própria, e mesmo em casos de retirada não fica registrado o motivo, então cada um precisa correr atrás. Como exemplo, citam a mensagem de retirada de um artigo que viram anteriormente

  • Compartilham que esse artigo já havia sido discutido no HN alguns meses atrás

    • Enfatizam, com um link anexo, que já naquela época havia gente percebendo que havia algo suspeito

    • Complementam a informação compartilhando também o título e o link da discussão anterior

  • Há a opinião de que, em vez de apagar completamente o artigo, seria melhor acrescentar uma nota ao preprint informando os problemas e a possibilidade de fraude. Como o trabalho já foi citado, pode ser importante no futuro verificar qual foi seu impacto real, e se ele simplesmente desaparecer restará apenas um vazio no histórico

    • Também observam que, em caso de retirada, as versões anteriores continuam disponíveis, e mencionam ainda que o MIT pediu a retirada. O título da matéria jornalística, segundo comentam, pode induzir um pouco ao erro

    • Também acham que os artigos que citaram esse trabalho fraudulento deveriam receber algum tipo de marca de alerta, para evitar que o impacto da fraude continue se propagando até o fim

    • Há ainda o desejo de que o arXiv tivesse ao menos uma página dizendo algo como "havia um artigo aqui, mas ele foi retirado"

  • Há quem questione a postura do MIT de tratar tudo apenas como erro de um doutorando, negando por completo possibilidades de financiamento de VC, acordos obscuros ou corrupção organizada. A visão apresentada é que, se todos sabiam que esse artigo seria desmascarado um dia, mas mesmo assim ele serviu para inflar o valor de mercado e o entusiasmo em torno de IA e gerar grandes ganhos antes da explosão da controvérsia, então bastaria depois pagar pouco e pedir desculpas para ainda sair lucrando bastante. Também apontam que farmacêuticas às vezes operam assim. Daí vem a cautela de que mesmo instituições ou publicações consideradas confiáveis podem conter artigos falsos ou levemente distorcidos, e que citar reportagens não garante validade lógica

    • Em contraponto, alguém com experiência interna na academia diz que esse tipo de fraude organizada exigiria tanta eficiência, coordenação e capacidade de planejamento que, na prática, pareceria inviável. Só a tomada de decisões já levaria tempo demais, então esses cenários conspiratórios imaginados estariam muito distantes da realidade
  • Observa-se que o comunicado oficial do MIT tem poucos detalhes, e que a matéria do WSJ traz um pouco mais de informação, embora ainda falte especificidade. Reforça-se que foram economistas que divulgaram ativamente o artigo e que a investigação interna do MIT só começou depois que um cientista da computação externo levantou problemas

    • Também compartilham um link de arquivo da reportagem
  • Há a opinião de que o simples fato de ele agora ser descrito como "ex-doutorando do segundo ano" já indica implicitamente que foi expulso

    • A pessoa comenta que sempre fica curiosa sobre o que acontece depois com figuras envolvidas em controvérsias desse porte. Lembra de um caso antigo em que um alto executivo da Apple foi preso por conduta criminosa e depois nunca mais se ouviu falar dele. Diz que, neste caso, imagina que será difícil para esse indivíduo continuar na área de economia e se pergunta se no futuro ele conseguirá algum emprego comum de escritório, no varejo ou em restaurantes