A ciência de dados virou uma pseudociência?

(reddit.com)

10 pontos por GN⁺ 2025-07-17 | 2 comentários | Compartilhar no WhatsApp

Resumo da discussão e das respostas publicadas no subreddit /r/DataScience
O autor demonstra ceticismo diante da realidade em que a ciência de dados é executada apenas com o nome de “IA generativa”, sem validação nem avaliação
Na prática, o que foi feito foi apenas um cálculo simples de z-score com código gerado pelo ChatGPT, e o projeto avançou até perto da implantação sem qualquer avaliação de desempenho do modelo
Na comunidade, houve críticas recorrentes à cultura corporativa de “se funciona, vamos implantar”, à falta de validação, à fuga de responsabilidade e ao sacrifício da ética científica
Vários profissionais relatam passar por problemas parecidos e expressam forte preocupação com essa tendência de degradação para uma “pseudociência”
Mas alguns também argumentam que é preciso entender a praticidade de experimentos rápidos e soluções simples, destacando uma visão equilibrada

Data Science Has Become a Pseudo-Science

Formado em mestrado e doutorado na Europa, o autor trabalha com ciência de dados há 10 anos, alternando entre indústria e academia
Nos últimos 2 anos, vem aumentando o fenômeno de apresentar resultados sem qualquer validação sob o rótulo de “IA generativa”
Como exemplo, em um projeto voltado à detecção de anomalias em séries temporais, foi calculado apenas o z-score da diferença para a média com código gerado pelo ChatGPT, e discutiu-se a implantação sem qualquer métrica de desempenho
Essa forma de trabalhar seria uma pseudociência em que se faz perguntas a uma caixa-preta e se segue a resposta sem pensamento científico, e até mesmo questionar isso virou tabu
Por isso, o autor cogita voltar para a academia e escreveu o post para perguntar se esse fenômeno também é uma experiência compartilhada entre colegas

A filosofia de “se funcionar, publica” está disseminada (u/Illustrious-Pound266)
Há também casos de startups que fracassaram ao enfatizar apenas IA, sem validação nem roadmap (u/gothicserp3nt)
Vieses ou discriminações não intencionais não estão sendo devidamente avaliados (u/tehMarzipanEmperor)
Na maioria das empresas, RAG ou IA são superembalados, com operação mais voltada para show do que para precisão (u/castleking, u/flowanvindir)
O clima no mercado virou “teatro de performance” (u/Ty4Readin, u/faulerauslaender)
Tornaram-se comuns implantações apressadas, relatórios vistosos por fora e adoção de IA sem medição para entregar resultados (u/glittering_tiger8996, u/Emergency-Job4136)
Muitos também defendem que essa situação já existia antes, e que a GenAI apenas tornou isso mais explícito (u/RoomyRoots, u/303uru, u/TARehman)
É adotado por ser rápido, mesmo com baixa explicabilidade e confiabilidade limitada
A responsabilização pelas decisões corporativas está desaparecendo (u/empathic_psychopath8, u/Jollyhrothgar)

Se uma abordagem simples resolve o problema, ela também merece reconhecimento prático (u/AnarkittenSurprise)
Muitos comentários dizem que a DS sempre teve elementos pouco científicos ou que era apenas “ciência no nome” (u/TaiChuanDoAddct, u/Time-Combination4710, u/LighterningZ)
Mais importante do que usar ferramentas de IA em si é a capacidade de utilizá-las com responsabilidade (u/Dror_sim, u/ResearchMindless6419)
Há críticas ao cenário de “tem dados, mas não tem lógica” e ao uso de pacotes sem conhecimento estatístico (u/gyp_casino, u/tmotytmoty)
Muitos reforçam que o realmente importante é conhecimento de domínio e raciocínio matemático, enquanto IA e programação são apenas ferramentas (u/MightBeRong, u/Dror_sim)

Cursos de MSDS são academicamente úteis, mas muitas vezes pouco relacionados à empregabilidade (u/throwaway_ghost_122)
O nível da formação está caindo, e o aumento da demanda por diplomas estaria reduzindo a qualidade geral do mercado (u/Yam_Cheap)
A própria academia também tem mais artigos não validados e análises superficiais, ou seja, não é uma exceção (u/joule_3am, u/Mishtle)

Seguros e saúde seguem exigindo validação rigorosa e revisão legal por causa da forte regulação (u/Mishtle, u/mikka1)
Já startups, vendas, games e parte da manufatura operam com foco em velocidade e apresentação (u/Vercingetorex89, u/Brackens_World)
Até no setor público a adoção do ChatGPT está desmontando antigos mecanismos de validação (u/TheFluffyEngineer, u/joule_3am)

Muitos profissionais afirmam estar pensando em deixar a área ou migrar para a academia (u/thro0away12, u/Emotional_Plane_3500, u/candidFIRE)
Há também uma visão mais positiva de que quem realmente tem competência pode até se destacar mais nesse cenário (u/OddEditor2467, u/sideshowbob01)

“Hoje em dia, basta fazer import pandas para virar cientista de dados” (u/vesnikos)
A realidade em que agradar o chefe virou mais importante do que pensamento probabilístico e validação científica (u/tmotytmoty, u/WignerVille)
Muitos observam, de forma realista, que antes já era assim e ainda é difícil chamar DS de ciência dentro das empresas (u/TaiChuanDoAddct, u/LighterningZ)

O post e os comentários mostram bem a realidade recente em que a prática de ciência de dados tem sido guiada mais por entregas rápidas e marketing de IA do que por consistência científica e validação
Há grande preocupação com o fato de que o rótulo “IA generativa” estaria bloqueando críticas racionais, e com a estrutura em que código sem validação vai direto para implantação
Academia e indústria estão longe de ser perfeitas, mas a discussão indica que, para que a ciência de dados volte a ser “ciência” em sentido pleno, será preciso mais pensamento crítico dentro da comunidade, melhor formação e reflexão sobre a cultura de trabalho

ytuniverse 2025-07-17

xguru 2025-07-17

Obrigado. Já corrigi.