- Formato de arquivo colunar open source projetado com hardware moderno (SIMD·GPU) como premissa
- Tem como objetivo acesso a dados de alta taxa de processamento e baixa latência em workloads analíticos e de IA
- Alcança taxa de compressão cerca de 40% maior que o Parquet e velocidade de decodificação até 40 vezes mais rápida
- Introduz um layout baseado em Lanes que minimiza dependências de dados, permitindo decodificar cada unidade de forma independente
- Garante paralelismo de dados extremo em SIMD, CPUs multicore e GPUs
- Projetado para que a vetorização automática funcione bem mesmo sem código SIMD explícito
- Adota uma abordagem de acesso em pequenos lotes levando em conta as características de cache de CPU e GPU
- Suporta descompressão parcial (partial decompression) para processar sem descompactar tudo, permitindo que motores de dados executem consultas diretamente sobre dados comprimidos
- Utiliza compressão multicoluna (Multi-Column Compression, MCC) para explorar correlações entre colunas
- Oferece um mecanismo de codificação baseado em expressões que complementa a limitação de coluna única dos formatos colunares tradicionais
- Estrutura zero-dependency sem dependência de bibliotecas externas, simplificando o build
- Oferece bindings para linguagens principais como C++, Python e Rust
- API integrada de conversão entre CSV ↔ FastLanes
- Conversão simples com
read_csv() / to_fls()
- Suporte à conversão reversa com
read_fls() / to_csv()
- Em desenvolvimento com foco na integração com a stack de dados de nova geração, incluindo decodificação em GPU e integração com Apache Arrow e DuckDB
Ainda não há comentários.