O Big Data morreu
Quem sou eu e por que estou escrevendo isto?
- Há mais de 10 anos venho enfatizando a importância do Big Data
- Como engenheiro fundador do Google BigQuery, promovi tecnologias para lidar com Big Data
- Por meio de conversas com clientes e análises de produto, percebi que a maioria das pessoas na prática não lida com Big Data
O slide de introdução obrigatório
- Muitas apresentações de produtos de Big Data transmitem a mensagem de que "o Big Data está chegando"
- Porém, na realidade, a maioria das aplicações não precisa processar dados em larga escala
- Sistemas tradicionais de banco de dados estão voltando a ganhar popularidade
A maioria das pessoas não tem tantos dados assim
- A maioria dos clientes possui menos de 1 TB de dados
- Mesmo clientes com grandes volumes de dados, na prática, usam apenas uma pequena parte deles
- O tamanho dos dados segue a lei de Pareto, e a maior parte dos dados se concentra em poucos clientes
Viés de armazenamento na separação entre storage e compute
- Plataformas modernas de dados na nuvem separam storage e compute
- O espaço de armazenamento cresce rapidamente, mas a necessidade de compute não muda tanto
- Pode não ser necessário processamento distribuído para lidar com grandes conjuntos de dados
O tamanho das tarefas é menor que o tamanho total dos dados
- A maioria das tarefas analíticas processa pequenos conjuntos de dados
- Consultas que processam grandes volumes de dados são raras e usadas principalmente para gerar relatórios
- Consultas pequenas são preferidas para reduzir os custos de processamento de dados
A maior parte dos dados quase nunca é consultada
- A maior parte dos dados é consultada com frequência apenas nas primeiras 24 horas após ser gerada
- Dados antigos quase não são consultados e apenas ocupam espaço de armazenamento
A fronteira do Big Data continua recuando
- A definição de "Big Data" muda com o tempo
- O hardware moderno consegue processar volumes de dados muito maiores do que no passado
Dados são responsabilidade
- O custo de manter dados vai além do simples custo de armazenamento
- É preciso considerar conformidade regulatória e responsabilidade legal
- Dados antigos são difíceis de manter
Você faz parte do 1% do Big Data?
- A maioria das pessoas não precisa lidar com Big Data
- É preciso considerar se os dados são realmente grandes, se podem ser resumidos etc.
A opinião do GN⁺
- Importância da gestão de dados: mais importante que o tamanho dos dados é sua qualidade e sua gestão. Remover dados desnecessários e focar nos dados importantes é mais eficiente.
- Abordagem realista: a maioria das empresas não precisa de tecnologias de Big Data. É importante escolher ferramentas adequadas ao tamanho real dos dados e às necessidades concretas.
- Redução de custos: em ambientes de nuvem, separar storage e compute pode reduzir custos. Diminuir o processamento desnecessário de dados é mais econômico.
- Responsabilidade legal: armazenar dados envolve responsabilidade legal. É preciso atenção à conformidade regulatória e à segurança dos dados.
- Avanço tecnológico: a evolução de hardware e software torna possível processar dados que antes eram inviáveis. Aproveitar tecnologias mais recentes pode aumentar a eficiência.
1 comentários
Opiniões do Hacker News
Experiência em contratação de cientistas de dados: Em uma pergunta sobre arquitetura para lidar com 6 TiB de dados, o candidato mais impressionante foi aquele que entendeu que isso poderia ser resolvido com um smartphone ou um HDD barato.
Comparação entre MongoDB e PostgreSQL: O MongoDB não tem nenhuma vantagem sobre o PostgreSQL, e soluções de big data usam principalmente bancos de dados colunares, Map/Reduce, Cassandra etc.
Planejamento para o sucesso: A maioria dos negócios não se torna unicórnio, mas é preciso ter isso como objetivo, e uma arquitetura que considere escalabilidade desde o início é necessária.
Tamanho dos dados e frequência de consultas: A maior parte dos dados não é grande, e a maioria das consultas é de pequena escala. No começo, é necessário fazer um trabalho de redução dos dados.
Big data e custo regulatório: O custo dos dados está aumentando por causa da regulação.
Experiência com análise de big data: Pela experiência no Grande Colisor de Hádrons, um armazenamento local rápido era melhor do que uma rede global de supercomputadores.
O paradoxo do big data: Havia uma tendência de evitar otimizações básicas de software para ostentar requisitos de hardware.
Conteúdo informacional dos dados: Os dados crescem exponencialmente, mas o conteúdo informacional não. No setor financeiro, a maior parte dos dados é redundante, e redução de dimensionalidade é necessária.
Definição de big data: Big data não é simplesmente uma questão de capacidade de armazenamento ou velocidade de processamento, mas de capacidade cognitiva para integrar e compreender os dados.
Overengineering nas ferramentas de big data: Em muitos casos, data warehouses e data lakes em escala de gigabytes ou terabytes já são suficientes, e arquiteturas simples oferecem desempenho melhor.
A moda do big data: A moda do big data acabou, e isso é um resultado comum em setores sensíveis a tendências.
Big data e o ego dos fundadores: O principal motor do big data era o ego dos fundadores, e no início um único banco SQLite já é suficiente.
O problema do processamento em big data: Big data é mais um problema de processamento do que de armazenamento, e a maioria das consultas lida apenas com dados recentes. Se processar todos os dados fosse mais fácil, fica a dúvida de por que a maioria das empresas ainda consultaria apenas dados pequenos.