11 pontos por xguru 2025-12-30 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Formato de arquivo colunar open source projetado com hardware moderno (SIMD·GPU) como premissa
  • Tem como objetivo acesso a dados de alta taxa de processamento e baixa latência em workloads analíticos e de IA
  • Alcança taxa de compressão cerca de 40% maior que o Parquet e velocidade de decodificação até 40 vezes mais rápida
  • Introduz um layout baseado em Lanes que minimiza dependências de dados, permitindo decodificar cada unidade de forma independente
    • Garante paralelismo de dados extremo em SIMD, CPUs multicore e GPUs
  • Projetado para que a vetorização automática funcione bem mesmo sem código SIMD explícito
    • Adota uma abordagem de acesso em pequenos lotes levando em conta as características de cache de CPU e GPU
  • Suporta descompressão parcial (partial decompression) para processar sem descompactar tudo, permitindo que motores de dados executem consultas diretamente sobre dados comprimidos
  • Utiliza compressão multicoluna (Multi-Column Compression, MCC) para explorar correlações entre colunas
    • Oferece um mecanismo de codificação baseado em expressões que complementa a limitação de coluna única dos formatos colunares tradicionais
  • Estrutura zero-dependency sem dependência de bibliotecas externas, simplificando o build
    • Oferece bindings para linguagens principais como C++, Python e Rust
  • API integrada de conversão entre CSV ↔ FastLanes
    • Conversão simples com read_csv() / to_fls()
    • Suporte à conversão reversa com read_fls() / to_csv()
  • Em desenvolvimento com foco na integração com a stack de dados de nova geração, incluindo decodificação em GPU e integração com Apache Arrow e DuckDB

Ainda não há comentários.

Ainda não há comentários.