Como usar o DuckDB (DuckDB Python + Jupyter Lab)

(zzsza.github.io)

24 pontos por zzsza 2024-10-27 | 2 comentários | Compartilhar no WhatsApp

Este é um artigo que organiza como usar o DuckDB, que recentemente vem ganhando destaque entre os projetos open source de OLAP.

Também inclui conteúdo sobre como ele pode ser utilizado no Jupyter Lab, além de algumas Extensions que achei especialmente impressionantes.

É possível consultar diretamente arquivos Parquet no S3 e usá-los com facilidade, então parece que ele pode realmente substituir o Athena. Também deve ser capaz de substituir completamente as áreas em que se usa Pandas.

Índice

Introdução ao DuckDB, o que é DuckDB?
- BIG DATA IS DEAD
Objetivos do DuckDB & vantagens do DuckDB
- 1. Simple
- 1. Portable
- 1. Feature Rich
- 1. Fast
- 1. Extensible
- 1. Free
- 1. Thorough Testing
- Benchmark de desempenho do DuckDB
- Instalação do DuckDB
Executando o DuckDB
- Execução simples (DuckDB Python)
- Data Load
- Executando de forma mais conveniente com jupysql
- Sintaxe SQL
- Secrets Manager
DuckDB Extension
- bigquery
- h3
- pg_duckdb
- vss(Vector Similarity Search)
Formas de usar o DuckDB
- Exemplo de uso no BigQuery
- Usar como um data warehouse local (substituto do Pandas)
- Como engine leve de análise para usar quando necessário
- Usar na etapa de Transform em pipelines ETL e ELT
- Consultar Parquet no GCS
Conclusão
Materiais de referência

2 comentários

nottiger 2024-10-28

Obrigado pelo ótimo material.

zzsza 2024-10-31

Obrigado por ler!!

Como usar o DuckDB (DuckDB Python + Jupyter Lab)

Leituras relacionadas

2 comentários