DuckDB surge como o novo jq
- O projeto DuckDB é um banco de dados semelhante ao SQLite para aplicações de dados, incluindo a capacidade de importar vários formatos de dados sem dependências adicionais.
- É possível ler e fazer parse de arquivos JSON diretamente como tabelas do banco de dados, e isso também se aplica a muitos outros formatos.
- Ao trabalhar com JSON, normalmente usa-se
jq, mas como a sintaxe complexa do jq pode ser um obstáculo, usar DuckDB é mais conveniente para quem já está acostumado com SQL.
- Por exemplo, usando a API do GitHub para obter em JSON informações sobre os repositórios da organização golang, é possível fazer facilmente em SQL uma análise estatística sobre os tipos de licenças open source.
- Escrever consultas SQL com DuckDB é algo que pode ser feito com facilidade mesmo sem consultar a documentação, e ele usa uma sintaxe semelhante às funções JSON do PostgreSQL.
- DuckDB também oferece suporte à saída em JSON e, quando necessário, é possível usar
jq para formatar o resultado de forma legível.
- Além de JSON, o DuckDB pode importar diversos formatos de dados, como CSV, parquet e arquivos do Excel.
- Quando não há necessidade de armazenar os dados de forma persistente, é possível consultá-los sem criar tabelas.
- O DuckDB pode ler JSON diretamente não apenas de arquivos locais, mas também de URLs.
Opinião do GN⁺
- O DuckDB pode se tornar uma ferramenta interessante para usuários que trabalham com frequência com tarefas relacionadas à análise de dados. Em especial, para quem já conhece SQL, ele pode ser uma alternativa poderosa para lidar facilmente com dados em JSON.
- O fato de o DuckDB conseguir ler dados JSON diretamente simplifica o processo de pré-processamento e traz a vantagem de reduzir etapas separadas de transformação ao construir pipelines de dados.
- Se o uso do DuckDB continuar se expandindo, ele pode reduzir a curva de aprendizado e aumentar a produtividade em comparação com ferramentas tradicionais mais complexas para análise e processamento de dados.
- No entanto, se o DuckDB ainda não for amplamente conhecido ou não contar com suporte comunitário suficiente, os usuários podem ter dificuldade para encontrar soluções ao enfrentar problemas.
- Outros projetos open source com funcionalidades semelhantes às do DuckDB incluem Apache Drill e PrestoDB, que também oferecem suporte a consultas SQL sobre grandes conjuntos de dados.
1 comentários
Comentários do Hacker News
Combinação de jq com ferramentas básicas de shell
curl ... | jq '.[].license.key' | sort | uniq -c.Babashka e Clojure
CLI local do ClickHouse
Uso de jq, DuckDB e SQL
Consultas no Google Sheets
Logging estruturado com banco de dados SQLite
Benthos
Nushell
pq (prql-query)
JSON e uso de linguagens de programação