DeepSeek abre em open source o sistema de arquivos 3FS e o framework de processamento de dados Smallpond (5 de 5)

(github.com/deepseek-ai)

6 pontos por xguru 2025-02-28 | Ainda não há comentários. | Compartilhar no WhatsApp

O Fire-Flyer File System (3FS) é um sistema de arquivos distribuído de alto desempenho projetado para lidar com cargas de trabalho de treinamento e inferência de IA
Aproveita SSDs de última geração e redes RDMA para fornecer uma camada de armazenamento compartilhado, simplificando o desenvolvimento de aplicações distribuídas

Principais características e vantagens

Desempenho e usabilidade
- Arquitetura desagregada: combina milhares de SSDs e a largura de banda de rede de centenas de nós de armazenamento, permitindo acesso aos recursos de armazenamento independentemente da localidade
- Fortes garantias de consistência: usa Chain Replication with Apportioned Queries (CRAQ) para manter a consistência, simplificando o código da aplicação
- Suporte à interface de arquivos: oferece um serviço de metadados stateless com base em um armazenamento transacional de chave-valor baseado em FoundationDB. Como utiliza interfaces de arquivo já existentes, não é necessário aprender uma nova API de armazenamento
Suporte a diferentes cargas de trabalho
- Preparação de dados: organiza a saída de pipelines de análise de dados em uma estrutura hierárquica de diretórios e gerencia com eficiência grandes volumes de saídas intermediárias
- Otimização do data loader: permite acesso aleatório a amostras de treinamento a partir de vários nós de computação, sem necessidade de pré-carregar ou embaralhar o dataset
- Armazenamento de checkpoints: oferece suporte a salvamento paralelo de checkpoints em alta velocidade para treinamentos em larga escala
- Otimização de inferência baseada em KVCache: mais econômico do que cache baseado em DRAM, além de permitir alta taxa de transferência e grande capacidade de armazenamento

Teste de throughput máximo
- 180 nós de armazenamento (cada um equipado com 2×200Gbps InfiniBand NIC e 16 SSDs NVMe de 14TiB)
- Mais de 500 nós cliente (cada um equipado com 1×200Gbps InfiniBand NIC)
- Registrou throughput total de 6.6TiB/s em um teste de carga de leitura executado em paralelo com uma tarefa de treinamento de IA
Teste de benchmark GraySort
- 25 nós de armazenamento (2 domínios NUMA por nó, 2×400Gbps NIC)
- 50 nós de computação (192 núcleos físicos, 2.2TiB de RAM, 1×200Gbps NIC)
- Ordenou 110.5TiB de dados (8.192 partições) em 30 minutos e 14 segundos, alcançando throughput médio de 3.66TiB/min
Teste de desempenho do KVCache
- Minimiza cálculos desnecessários por meio de cache de vetores chave-valor durante a inferência de grandes modelos de linguagem (LLM)
- Registrou pico de throughput de leitura de 40GiB/s
- Inclui análise de desempenho de operações de exclusão (IOPS) durante a execução de Garbage Collection (GC)

Tem como características processamento de dados de alto desempenho, escalabilidade em larga escala e operação simples
- Processamento de dados de alto desempenho: usa DuckDB para processamento rápido de dados
- Suporte a datasets massivos: capaz de processar dados em escala de petabytes (PB)
- Facilidade operacional: pode ser usado facilmente sem serviços de longa duração