Como usar o DuckDB (DuckDB Python + Jupyter Lab)
(zzsza.github.io)Este é um artigo que organiza como usar o DuckDB, que recentemente vem ganhando destaque entre os projetos open source de OLAP.
Também inclui conteúdo sobre como ele pode ser utilizado no Jupyter Lab, além de algumas Extensions que achei especialmente impressionantes.
É possível consultar diretamente arquivos Parquet no S3 e usá-los com facilidade, então parece que ele pode realmente substituir o Athena. Também deve ser capaz de substituir completamente as áreas em que se usa Pandas.
Índice
- Introdução ao DuckDB, o que é DuckDB?
- BIG DATA IS DEAD
- Objetivos do DuckDB & vantagens do DuckDB
-
- Simple
-
- Portable
-
- Feature Rich
-
- Fast
-
- Extensible
-
- Free
-
- Thorough Testing
- Benchmark de desempenho do DuckDB
- Instalação do DuckDB
-
- Executando o DuckDB
- Execução simples (DuckDB Python)
- Data Load
- Executando de forma mais conveniente com jupysql
- Sintaxe SQL
- Secrets Manager
- DuckDB Extension
- bigquery
- h3
- pg_duckdb
- vss(Vector Similarity Search)
- Formas de usar o DuckDB
- Exemplo de uso no BigQuery
- Usar como um data warehouse local (substituto do Pandas)
- Como engine leve de análise para usar quando necessário
- Usar na etapa de Transform em pipelines ETL e ELT
- Consultar Parquet no GCS
- Conclusão
- Materiais de referência
2 comentários
Obrigado pelo ótimo material.
Obrigado por ler!!