warc-parquet - CLI para converter WARC em Parquet
(github.com/maxcountryman)- Converte arquivos Web ARChive (.warc) para o formato Apache Parquet baseado em colunas
- É possível carregar o Parquet no DuckDB e fazer consultas com facilidade
- Open source em Rust
1 comentários
DuckDB - Open source de banco de dados OLAP embarcado
Parece semelhante ao WarcDB - Dados de rastreamento da web como banco de dados SQLite, que foi publicado há pouco tempo.
No entanto, em lugares que já têm uma infraestrutura usando Parquet, parece ser mais fácil de usar