Carquet - Biblioteca pura em C de alto desempenho para ler e escrever arquivos Parquet

xguru · 2026-01-17T09:31:02+09:00

Biblioteca com implementação pura em C, em nível de produção, desenvolvida para dar suporte direto ao formato Apache Parquet em ambientes C Escrita com base no padrão C11, funciona sem runtime de C++ nem tratamento de exceções e usa apenas zstd e zlib como dependências externas Adequada para processamento de dados em ambientes com restrições como sistemas embarcados, IoT, microcontroladores e ambientes legados Com tamanho binário de cerca de 200 KB, oferece uma build leve, mais de 50 MB menor que o Apache Arrow Suporta várias arquiteturas com otimizações SIMD (SSE4.2, AVX2, AVX-512, NEON, SVE) e detecção automática em tempo de execução Suporte a todos os tipos físicos (BOOLEAN, INT32, DOUBLE etc.) e a vários encodings e codecs de compressão (ZSTD, LZ4, SNAPPY, GZIP) Também oferece suporte ao tratamento correto de ordem de bytes em sistemas Big-Endian (s390x, SPARC, PowerPC etc.) Inclui recursos de produção como colunas nullable, esquemas aninhados básicos, validação de páginas CRC32, estatísticas de colunas, I/O com mapeamento de memória e leitura paralela com OpenMP Com a API de streaming, é possível processar arquivos grandes sem carregá-los inteiramente na memória Totalmente compatível com PyArrow, com suporte a leitura e escrita interoperável em ambientes Python Na comparação com Apache Arrow Em ambientes ARM, a velocidade de escrita é de 1,5 a 5 vezes maior, e a leitura também melhora em até 1,3 vez Em ambientes x86, a velocidade de leitura é um pouco menor, mas o tamanho do arquivo é cerca de 1,4 vez menor Dependências mínimas, build simplificada e integração em ambientes exclusivamente C são seus principais pontos fortes Tipos aninhados complexos, criptografia e descompressão ZSTD multithread não são suportados Validação concluída com testes de interoperabilidade com PyArrow, DuckDB e fastparquet Arquivos gerados pelo Carquet também podem ser lidos diretamente em Spark e DuckDB Suporte a Linux, macOS, Windows e sistemas POSIX Licença MIT

(github.com/Vitruves)

9 pontos por xguru 2026-01-17 | Ainda não há comentários. | Compartilhar no WhatsApp

Biblioteca com implementação pura em C, em nível de produção, desenvolvida para dar suporte direto ao formato Apache Parquet em ambientes C
Escrita com base no padrão C11, funciona sem runtime de C++ nem tratamento de exceções e usa apenas zstd e zlib como dependências externas
Adequada para processamento de dados em ambientes com restrições como sistemas embarcados, IoT, microcontroladores e ambientes legados
Com tamanho binário de cerca de 200 KB, oferece uma build leve, mais de 50 MB menor que o Apache Arrow
Suporta várias arquiteturas com otimizações SIMD (SSE4.2, AVX2, AVX-512, NEON, SVE) e detecção automática em tempo de execução
Suporte a todos os tipos físicos (BOOLEAN, INT32, DOUBLE etc.) e a vários encodings e codecs de compressão (ZSTD, LZ4, SNAPPY, GZIP)
Também oferece suporte ao tratamento correto de ordem de bytes em sistemas Big-Endian (s390x, SPARC, PowerPC etc.)
Inclui recursos de produção como colunas nullable, esquemas aninhados básicos, validação de páginas CRC32, estatísticas de colunas, I/O com mapeamento de memória e leitura paralela com OpenMP
Com a API de streaming, é possível processar arquivos grandes sem carregá-los inteiramente na memória
Totalmente compatível com PyArrow, com suporte a leitura e escrita interoperável em ambientes Python
Na comparação com Apache Arrow
- Em ambientes ARM, a velocidade de escrita é de 1,5 a 5 vezes maior, e a leitura também melhora em até 1,3 vez
- Em ambientes x86, a velocidade de leitura é um pouco menor, mas o tamanho do arquivo é cerca de 1,4 vez menor
- Dependências mínimas, build simplificada e integração em ambientes exclusivamente C são seus principais pontos fortes
- Tipos aninhados complexos, criptografia e descompressão ZSTD multithread não são suportados
Validação concluída com testes de interoperabilidade com PyArrow, DuckDB e fastparquet
Arquivos gerados pelo Carquet também podem ser lidos diretamente em Spark e DuckDB
Suporte a Linux, macOS, Windows e sistemas POSIX
Licença MIT

Carquet - Biblioteca pura em C de alto desempenho para ler e escrever arquivos Parquet

Leituras relacionadas

Ainda não há comentários.