- Quem sou eu e por que me interesso por isso → engenheiro inicial do BigQuery
- Slide de introdução obrigatório → o gráfico que todo mundo cita: "os dados explodem com o passar do tempo"
- A maioria das pessoas não tem tantos dados assim
- Armazenamento e computação foram separados, com viés para armazenamento
- O tamanho da carga de trabalho é menor que o tamanho total dos dados
- A maior parte dos dados quase nunca é consultada
- A fronteira do big data continua recuando
- Dados são um passivo (Liability)
→ Outra definição de big data é: "quando o custo de manter os dados é menor do que o custo de descobrir o que descartar"
- Você faz parte do 1% do big data?
- Você realmente está gerando uma quantidade gigantesca de dados?
- Se sim, você realmente precisa usar uma quantidade gigantesca desses dados de uma só vez?
- Se sim, os dados são grandes demais para caber em um único sistema?
- Se sim, você tem certeza de que não é apenas um acumulador de dados (Hoarder)?
- Se sim, não seria melhor resumir?
- Se você responder não a qualquer uma das perguntas da lista acima,
em vez de algo como o "big data em escala assustadora" que talvez você venha a ter algum dia,
pode ser melhor usar "ferramentas de dados de nova geração que permitam lidar com a escala de dados que você realmente tem"
1 comentários
É preciso ler este texto considerando que a empresa que o escreveu é a MotherDuck, a empresa por trás do "DuckDB".
DuckDB - banco de dados OLAP embutido open source
O slogan da empresa é "Big Data is DEAD. Long live EASY DATA."
Ela promove seu banco de dados embutido com a frase: "Your laptop is faster than your data warehouse. Why wait for the Cloud?"
Claro, isso não significa que o texto seja ruim. No geral, vale a leitura, e concordo com boa parte do que foi dito.
Tem empresa demais dizendo que faz "big data" com uma quantidade de dados que nem é tão grande assim.