Hyperspace - subsistema de indexação open source para Apache Spark lançado pela Microsoft
(microsoft.github.io)Um subsistema para Apache Spark que permite aceleração de consultas baseada em índices
→ Cria e gerencia índices para dados CSV, JSON e Parquet
→ Usa esses índices automaticamente para acelerar consultas/workloads sem alterações no código
- Nos benchmarks TPC, velocidade de consulta até 11x maior para consultas individuais
→ No geral, cerca de 2x de aceleração no desempenho de consultas em hardware comum
-
APIs simples como create,refresh,delete,restore,vacuum,cancel
-
Suporte a Scala, Python e .NET
Está sendo usado no Azure Synapse Analytics da nuvem Microsoft Azure
(serviço de análise ilimitada que combina data warehousing corporativo e análise de big data)
1 comentários
Texto de apresentação: Hyperspace, um subsistema de indexação para Apache Spark™, agora é open source
https://cloudblogs.microsoft.com/opensource/2020/…