20 pontos por xguru 2023-02-13 | 1 comentários | Compartilhar no WhatsApp
  • Quem sou eu e por que me interesso por isso → engenheiro inicial do BigQuery
  • Slide de introdução obrigatório → o gráfico que todo mundo cita: "os dados explodem com o passar do tempo"
  • A maioria das pessoas não tem tantos dados assim
  • Armazenamento e computação foram separados, com viés para armazenamento
  • O tamanho da carga de trabalho é menor que o tamanho total dos dados
  • A maior parte dos dados quase nunca é consultada
  • A fronteira do big data continua recuando
  • Dados são um passivo (Liability)
    → Outra definição de big data é: "quando o custo de manter os dados é menor do que o custo de descobrir o que descartar"
  • Você faz parte do 1% do big data?
    • Você realmente está gerando uma quantidade gigantesca de dados?
    • Se sim, você realmente precisa usar uma quantidade gigantesca desses dados de uma só vez?
    • Se sim, os dados são grandes demais para caber em um único sistema?
    • Se sim, você tem certeza de que não é apenas um acumulador de dados (Hoarder)?
    • Se sim, não seria melhor resumir?
  • Se você responder não a qualquer uma das perguntas da lista acima,
    em vez de algo como o "big data em escala assustadora" que talvez você venha a ter algum dia,
    pode ser melhor usar "ferramentas de dados de nova geração que permitam lidar com a escala de dados que você realmente tem"

1 comentários

 
xguru 2023-02-13

É preciso ler este texto considerando que a empresa que o escreveu é a MotherDuck, a empresa por trás do "DuckDB".
DuckDB - banco de dados OLAP embutido open source

O slogan da empresa é "Big Data is DEAD. Long live EASY DATA."
Ela promove seu banco de dados embutido com a frase: "Your laptop is faster than your data warehouse. Why wait for the Cloud?"

Claro, isso não significa que o texto seja ruim. No geral, vale a leitura, e concordo com boa parte do que foi dito.
Tem empresa demais dizendo que faz "big data" com uma quantidade de dados que nem é tão grande assim.