1 pontos por GN⁺ 2024-05-28 | 1 comentários | Compartilhar no WhatsApp

O Big Data morreu

Quem sou eu e por que estou escrevendo isto?

  • Há mais de 10 anos venho enfatizando a importância do Big Data
  • Como engenheiro fundador do Google BigQuery, promovi tecnologias para lidar com Big Data
  • Por meio de conversas com clientes e análises de produto, percebi que a maioria das pessoas na prática não lida com Big Data

O slide de introdução obrigatório

  • Muitas apresentações de produtos de Big Data transmitem a mensagem de que "o Big Data está chegando"
  • Porém, na realidade, a maioria das aplicações não precisa processar dados em larga escala
  • Sistemas tradicionais de banco de dados estão voltando a ganhar popularidade

A maioria das pessoas não tem tantos dados assim

  • A maioria dos clientes possui menos de 1 TB de dados
  • Mesmo clientes com grandes volumes de dados, na prática, usam apenas uma pequena parte deles
  • O tamanho dos dados segue a lei de Pareto, e a maior parte dos dados se concentra em poucos clientes

Viés de armazenamento na separação entre storage e compute

  • Plataformas modernas de dados na nuvem separam storage e compute
  • O espaço de armazenamento cresce rapidamente, mas a necessidade de compute não muda tanto
  • Pode não ser necessário processamento distribuído para lidar com grandes conjuntos de dados

O tamanho das tarefas é menor que o tamanho total dos dados

  • A maioria das tarefas analíticas processa pequenos conjuntos de dados
  • Consultas que processam grandes volumes de dados são raras e usadas principalmente para gerar relatórios
  • Consultas pequenas são preferidas para reduzir os custos de processamento de dados

A maior parte dos dados quase nunca é consultada

  • A maior parte dos dados é consultada com frequência apenas nas primeiras 24 horas após ser gerada
  • Dados antigos quase não são consultados e apenas ocupam espaço de armazenamento

A fronteira do Big Data continua recuando

  • A definição de "Big Data" muda com o tempo
  • O hardware moderno consegue processar volumes de dados muito maiores do que no passado

Dados são responsabilidade

  • O custo de manter dados vai além do simples custo de armazenamento
  • É preciso considerar conformidade regulatória e responsabilidade legal
  • Dados antigos são difíceis de manter

Você faz parte do 1% do Big Data?

  • A maioria das pessoas não precisa lidar com Big Data
  • É preciso considerar se os dados são realmente grandes, se podem ser resumidos etc.

A opinião do GN⁺

  • Importância da gestão de dados: mais importante que o tamanho dos dados é sua qualidade e sua gestão. Remover dados desnecessários e focar nos dados importantes é mais eficiente.
  • Abordagem realista: a maioria das empresas não precisa de tecnologias de Big Data. É importante escolher ferramentas adequadas ao tamanho real dos dados e às necessidades concretas.
  • Redução de custos: em ambientes de nuvem, separar storage e compute pode reduzir custos. Diminuir o processamento desnecessário de dados é mais econômico.
  • Responsabilidade legal: armazenar dados envolve responsabilidade legal. É preciso atenção à conformidade regulatória e à segurança dos dados.
  • Avanço tecnológico: a evolução de hardware e software torna possível processar dados que antes eram inviáveis. Aproveitar tecnologias mais recentes pode aumentar a eficiência.

1 comentários

 
GN⁺ 2024-05-28
Opiniões do Hacker News
  • Experiência em contratação de cientistas de dados: Em uma pergunta sobre arquitetura para lidar com 6 TiB de dados, o candidato mais impressionante foi aquele que entendeu que isso poderia ser resolvido com um smartphone ou um HDD barato.

  • Comparação entre MongoDB e PostgreSQL: O MongoDB não tem nenhuma vantagem sobre o PostgreSQL, e soluções de big data usam principalmente bancos de dados colunares, Map/Reduce, Cassandra etc.

  • Planejamento para o sucesso: A maioria dos negócios não se torna unicórnio, mas é preciso ter isso como objetivo, e uma arquitetura que considere escalabilidade desde o início é necessária.

  • Tamanho dos dados e frequência de consultas: A maior parte dos dados não é grande, e a maioria das consultas é de pequena escala. No começo, é necessário fazer um trabalho de redução dos dados.

  • Big data e custo regulatório: O custo dos dados está aumentando por causa da regulação.

  • Experiência com análise de big data: Pela experiência no Grande Colisor de Hádrons, um armazenamento local rápido era melhor do que uma rede global de supercomputadores.

  • O paradoxo do big data: Havia uma tendência de evitar otimizações básicas de software para ostentar requisitos de hardware.

  • Conteúdo informacional dos dados: Os dados crescem exponencialmente, mas o conteúdo informacional não. No setor financeiro, a maior parte dos dados é redundante, e redução de dimensionalidade é necessária.

  • Definição de big data: Big data não é simplesmente uma questão de capacidade de armazenamento ou velocidade de processamento, mas de capacidade cognitiva para integrar e compreender os dados.

  • Overengineering nas ferramentas de big data: Em muitos casos, data warehouses e data lakes em escala de gigabytes ou terabytes já são suficientes, e arquiteturas simples oferecem desempenho melhor.

  • A moda do big data: A moda do big data acabou, e isso é um resultado comum em setores sensíveis a tendências.

  • Big data e o ego dos fundadores: O principal motor do big data era o ego dos fundadores, e no início um único banco SQLite já é suficiente.

  • O problema do processamento em big data: Big data é mais um problema de processamento do que de armazenamento, e a maioria das consultas lida apenas com dados recentes. Se processar todos os dados fosse mais fácil, fica a dúvida de por que a maioria das empresas ainda consultaria apenas dados pequenos.