8 pontos por xguru 2020-07-20 | 1 comentários | Compartilhar no WhatsApp

Um subsistema para Apache Spark que permite aceleração de consultas baseada em índices

→ Cria e gerencia índices para dados CSV, JSON e Parquet

→ Usa esses índices automaticamente para acelerar consultas/workloads sem alterações no código

  • Nos benchmarks TPC, velocidade de consulta até 11x maior para consultas individuais

→ No geral, cerca de 2x de aceleração no desempenho de consultas em hardware comum

  • APIs simples como create,refresh,delete,restore,vacuum,cancel

  • Suporte a Scala, Python e .NET

Está sendo usado no Azure Synapse Analytics da nuvem Microsoft Azure

(serviço de análise ilimitada que combina data warehousing corporativo e análise de big data)

1 comentários

 
xguru 2020-07-20

Texto de apresentação: Hyperspace, um subsistema de indexação para Apache Spark™, agora é open source

https://cloudblogs.microsoft.com/opensource/2020/…