Tuplex - framework de processamento paralelo de big data

xguru · 2021-07-09T09:20:53+09:00

Oferece uma API Python semelhante à do Apache Spark / Dask, mas → não chama o interpretador Python → gera bytecode LLVM otimizado para o pipeline fornecido e o conjunto de dados de entrada → 5 a 91x mais rápido que o interpretador Internamente, baseia-se em compilação orientada por dados e processamento em modo duplo, alcançando velocidade semelhante à de pipelines otimizados escritos em C++ Suporta MacOS / Linux Artigo apresentado na SIGMOD '21: "Tuplex: Data Science in Python at Native Code Speed"

(github.com)

11 pontos por xguru 2021-07-09 | Ainda não há comentários. | Compartilhar no WhatsApp

Oferece uma API Python semelhante à do Apache Spark / Dask, mas

→ não chama o interpretador Python

→ gera bytecode LLVM otimizado para o pipeline fornecido e o conjunto de dados de entrada

→ 5 a 91x mais rápido que o interpretador

Internamente, baseia-se em compilação orientada por dados e processamento em modo duplo, alcançando velocidade semelhante à de pipelines otimizados escritos em C++
Suporta MacOS / Linux
Artigo apresentado na SIGMOD '21: "Tuplex: Data Science in Python at Native Code Speed"

Tuplex - framework de processamento paralelo de big data

Leituras relacionadas

Ainda não há comentários.