YTsaurus - sistema open source de armazenamento e processamento em escala de exabytes

xguru · 2023-03-25T10:19:01+09:00

Plataforma open source de armazenamento distribuído e processamento de big data lançada pela Yandex Casos de uso: processamento em lote, análise ad hoc, OLTP, machine learning, armazenamento de metadados, pipelines de ETL Ecossistema multitenant Confiabilidade e segurança: sem SPOF. Replicação automática entre servidores. Atualizações sem perda de progresso Escalabilidade Pode escalar para até 1 milhão de núcleos de CPU e milhares de GPUs Suporta mais de 10 mil nós. Escala automática de servidores para cima e para baixo Suporte a diversos meios de armazenamento até dados em escala de exabytes Recursos avançados Modelo MapReduce abrangente Transações ACID distribuídas Fornece vários SDKs (C++, Python, Java, Go) e APIs Isolamento seguro para recursos de computação e armazenamento UI amigável CHYT powered by ClickHouse Dialeto SQL familiar e funcionalidades semelhantes Consultas analíticas rápidas Integração com soluções populares de BI (JDBC/ODBC) SPYT powered by Apache Spark Ferramentas para criar processos de ETL Suporte a vários clusters independentes de diferentes tamanhos Migração fácil a partir de soluções existentes

(ytsaurus.tech)

9 pontos por xguru 2023-03-25 | 1 comentários | Compartilhar no WhatsApp

Plataforma open source de armazenamento distribuído e processamento de big data lançada pela Yandex
- Casos de uso: processamento em lote, análise ad hoc, OLTP, machine learning, armazenamento de metadados, pipelines de ETL
Ecossistema multitenant
Confiabilidade e segurança: sem SPOF. Replicação automática entre servidores. Atualizações sem perda de progresso
Escalabilidade
- Pode escalar para até 1 milhão de núcleos de CPU e milhares de GPUs
- Suporta mais de 10 mil nós. Escala automática de servidores para cima e para baixo
- Suporte a diversos meios de armazenamento até dados em escala de exabytes
Recursos avançados
- Modelo MapReduce abrangente
- Transações ACID distribuídas
- Fornece vários SDKs (C++, Python, Java, Go) e APIs
- Isolamento seguro para recursos de computação e armazenamento
- UI amigável
CHYT powered by ClickHouse
- Dialeto SQL familiar e funcionalidades semelhantes
- Consultas analíticas rápidas
- Integração com soluções populares de BI (JDBC/ODBC)
SPYT powered by Apache Spark
- Ferramentas para criar processos de ETL
- Suporte a vários clusters independentes de diferentes tamanhos
- Migração fácil a partir de soluções existentes

1 comentários

xguru 2023-03-25

Um artigo de apresentação sobre a história do próprio projeto open source e as tecnologias usadas internamente: YTsaurus: Exabyte-Scale Storage and Processing System Is Now Open Source

Dizem que ele vem sendo desenvolvido há quase 10 anos.
Usavam MapReduce desde 2006, mas ao atingir limitações em 2009, iniciaram o projeto YT em 2010
Cypress (Storage) + MapReduce + tabelas K-V dinâmicas + YQL + CHYT + SPYT
O código principal dos servidores é em C++

YTsaurus - sistema open source de armazenamento e processamento em escala de exabytes

Leituras relacionadas

1 comentários