- Resumo da discussão e das respostas publicadas no subreddit /r/DataScience
- O autor demonstra ceticismo diante da realidade em que a ciência de dados é executada apenas com o nome de “IA generativa”, sem validação nem avaliação
- Na prática, o que foi feito foi apenas um cálculo simples de z-score com código gerado pelo ChatGPT, e o projeto avançou até perto da implantação sem qualquer avaliação de desempenho do modelo
- Na comunidade, houve críticas recorrentes à cultura corporativa de “se funciona, vamos implantar”, à falta de validação, à fuga de responsabilidade e ao sacrifício da ética científica
- Vários profissionais relatam passar por problemas parecidos e expressam forte preocupação com essa tendência de degradação para uma “pseudociência”
- Mas alguns também argumentam que é preciso entender a praticidade de experimentos rápidos e soluções simples, destacando uma visão equilibrada
Data Science Has Become a Pseudo-Science
- Formado em mestrado e doutorado na Europa, o autor trabalha com ciência de dados há 10 anos, alternando entre indústria e academia
- Nos últimos 2 anos, vem aumentando o fenômeno de apresentar resultados sem qualquer validação sob o rótulo de “IA generativa”
- Como exemplo, em um projeto voltado à detecção de anomalias em séries temporais, foi calculado apenas o z-score da diferença para a média com código gerado pelo ChatGPT, e discutiu-se a implantação sem qualquer métrica de desempenho
- Essa forma de trabalhar seria uma pseudociência em que se faz perguntas a uma caixa-preta e se segue a resposta sem pensamento científico, e até mesmo questionar isso virou tabu
- Por isso, o autor cogita voltar para a academia e escreveu o post para perguntar se esse fenômeno também é uma experiência compartilhada entre colegas
Resumo dos comentários
Principais opiniões de concordância
- A filosofia de “se funcionar, publica” está disseminada (
u/Illustrious-Pound266)
- Há também casos de startups que fracassaram ao enfatizar apenas IA, sem validação nem roadmap (
u/gothicserp3nt)
- Vieses ou discriminações não intencionais não estão sendo devidamente avaliados (
u/tehMarzipanEmperor)
- Na maioria das empresas, RAG ou IA são superembalados, com operação mais voltada para show do que para precisão (
u/castleking, u/flowanvindir)
- O clima no mercado virou “teatro de performance” (
u/Ty4Readin, u/faulerauslaender)
- Tornaram-se comuns implantações apressadas, relatórios vistosos por fora e adoção de IA sem medição para entregar resultados (
u/glittering_tiger8996, u/Emergency-Job4136)
- Muitos também defendem que essa situação já existia antes, e que a GenAI apenas tornou isso mais explícito (
u/RoomyRoots, u/303uru, u/TARehman)
- É adotado por ser rápido, mesmo com baixa explicabilidade e confiabilidade limitada
- A responsabilização pelas decisões corporativas está desaparecendo (
u/empathic_psychopath8, u/Jollyhrothgar)
Outras visões
- Se uma abordagem simples resolve o problema, ela também merece reconhecimento prático (
u/AnarkittenSurprise)
- Muitos comentários dizem que a DS sempre teve elementos pouco científicos ou que era apenas “ciência no nome” (
u/TaiChuanDoAddct, u/Time-Combination4710, u/LighterningZ)
- Mais importante do que usar ferramentas de IA em si é a capacidade de utilizá-las com responsabilidade (
u/Dror_sim, u/ResearchMindless6419)
- Há críticas ao cenário de “tem dados, mas não tem lógica” e ao uso de pacotes sem conhecimento estatístico (
u/gyp_casino, u/tmotytmoty)
- Muitos reforçam que o realmente importante é conhecimento de domínio e raciocínio matemático, enquanto IA e programação são apenas ferramentas (
u/MightBeRong, u/Dror_sim)
Problemas de sistema e educação
- Cursos de MSDS são academicamente úteis, mas muitas vezes pouco relacionados à empregabilidade (
u/throwaway_ghost_122)
- O nível da formação está caindo, e o aumento da demanda por diplomas estaria reduzindo a qualidade geral do mercado (
u/Yam_Cheap)
- A própria academia também tem mais artigos não validados e análises superficiais, ou seja, não é uma exceção (
u/joule_3am, u/Mishtle)
Relatos por setor
- Seguros e saúde seguem exigindo validação rigorosa e revisão legal por causa da forte regulação (
u/Mishtle, u/mikka1)
- Já startups, vendas, games e parte da manufatura operam com foco em velocidade e apresentação (
u/Vercingetorex89, u/Brackens_World)
- Até no setor público a adoção do ChatGPT está desmontando antigos mecanismos de validação (
u/TheFluffyEngineer, u/joule_3am)
Desilusão e vontade de sair
- Muitos profissionais afirmam estar pensando em deixar a área ou migrar para a academia (
u/thro0away12, u/Emotional_Plane_3500, u/candidFIRE)
- Há também uma visão mais positiva de que quem realmente tem competência pode até se destacar mais nesse cenário (
u/OddEditor2467, u/sideshowbob01)
Sátira e resignação
- “Hoje em dia, basta fazer
import pandas para virar cientista de dados” (u/vesnikos)
- A realidade em que agradar o chefe virou mais importante do que pensamento probabilístico e validação científica (
u/tmotytmoty, u/WignerVille)
- Muitos observam, de forma realista, que antes já era assim e ainda é difícil chamar DS de ciência dentro das empresas (
u/TaiChuanDoAddct, u/LighterningZ)
Conclusão
- O post e os comentários mostram bem a realidade recente em que a prática de ciência de dados tem sido guiada mais por entregas rápidas e marketing de IA do que por consistência científica e validação
- Há grande preocupação com o fato de que o rótulo “IA generativa” estaria bloqueando críticas racionais, e com a estrutura em que código sem validação vai direto para implantação
- Academia e indústria estão longe de ser perfeitas, mas a discussão indica que, para que a ciência de dados volte a ser “ciência” em sentido pleno, será preciso mais pensamento crítico dentro da comunidade, melhor formação e reflexão sobre a cultura de trabalho
2 comentários
O link não está funcionando.
https://reddit.com/r/datascience/…
Obrigado. Já corrigi.