DeepSeek Open Infra: 5 repositórios de IA publicados como open source em 5 dias

(github.com/deepseek-ai)

9 pontos por GN⁺ 2025-02-22 | 2 comentários | Compartilhar no WhatsApp

A equipe de IA da DeepSeek está se esforçando para ultrapassar limites na exploração de AGI
A partir da próxima semana, pretende publicar 5 repositórios como open source, com o objetivo de compartilhar de forma transparente pequenos avanços como desenvolvedora
Estes são componentes fundamentais de serviços online, com código documentado, implantado e testado em ambientes reais
Um novo código será divulgado todos os dias, com o objetivo de promover inovação guiada pela comunidade

Day 1: FlashMLA

Kernel eficiente de decodificação MLA para GPUs Hopper
Otimizado para servir sequências de comprimento variável
O que foi lançado até agora
- BF16
- Paged kvcache com tamanho de bloco 64
Benchmark: usando CUDA 12.6 no H800 SXM5, alcançou até 3000GB/s em configurações limitadas por memória e 580 TFLOPS em configurações limitadas por computação

Day 2: DeepEP

Biblioteca de comunicação de alto desempenho para Mixture-of-Experts(MoE) e Expert Parallelism(EP)
Fornece kernels All-to-All baseados em GPU para processar rapidamente operações de despacho e combinação de MoE
Suporte a operações de baixa precisão como FP8
Aplica o algoritmo de group-limited gating proposto no paper DeepSeek-V3 para otimizar o encaminhamento de banda de domínio assimétrico
- Ex.: otimização da transferência de dados NVLink → RDMA
- Oferece alta vazão adequada para treinamento e tarefas de prefilling de inferência
Inclui kernel dedicado RDMA de baixa latência para decodificação de inferência sensível à latência
Fornece técnica de sobreposição entre comunicação e computação (sem ocupar recursos de SM)

Day 3: DeepGEMM

Biblioteca para executar com eficiência multiplicação de matrizes FP8 (GEMM), com suporte ao método de fine-grained scaling proposto no DeepSeek-V3
Suporta tanto GEMM geral quanto GEMM agrupado de Mix-of-Experts(MoE)
Implementada com base em CUDA e compila kernels em tempo de execução usando um módulo leve de Just-In-Time(JIT), sem compilação separada durante a instalação
Atualmente compatível apenas com Tensor Cores NVIDIA Hopper
Usa acumulação dupla (promotion) baseada em CUDA cores para compensar a acumulação imprecisa dos Tensor Cores FP8
Aproveita alguns conceitos de CUTLASS e CuTe, mas com um design simples que reduz dependências complexas de templates e inclui apenas cerca de 300 linhas de código de kernel
Adequada para aprender operações matriciais FP8 e técnicas de otimização no Hopper
Apesar do design leve, apresenta desempenho semelhante ou superior ao de bibliotecas ajustadas em nível especialista em vários tamanhos de matriz

Day 4: Estratégias otimizadas de processamento paralelo: DualPipe, EPLB, Profile-Data

Estratégias e códigos usados no DeepSeek V3/R1
- DualPipe: algoritmo de paralelismo em pipeline bidirecional para sobreposição entre computação e comunicação
- EPLB: balanceador de carga Expert-Parallel
- Profile-Data: profiling de dados da infraestrutura da DeepSeek para analisar a sobreposição entre computação e comunicação

Day 5: Sistema de arquivos 3FS e framework de processamento de dados Smallpond

O Fire-Flyer File System(3FS) é um sistema de arquivos distribuído de alto desempenho projetado para lidar com workloads de treinamento e inferência em IA
Usa SSDs de última geração e redes RDMA para fornecer uma camada de armazenamento compartilhado e simplificar o desenvolvimento de aplicações distribuídas
Principais características e vantagens
- Desempenho e usabilidade
  - Arquitetura desagregada: combina milhares de SSDs e a largura de banda de rede de centenas de nós de armazenamento, permitindo acessar recursos de armazenamento independentemente da localidade
  - Garantia forte de consistência: mantém a consistência usando Chain Replication with Apportioned Queries(CRAQ), simplificando o código das aplicações
  - Suporte a interface de arquivo: fornece um serviço de metadados sem estado com base em um armazenamento transacional chave-valor construído sobre FoundationDB. Como usa interfaces de arquivo existentes, não é necessário aprender uma nova API de armazenamento
- Suporte a vários workloads
  - Preparação de dados: organiza a saída de pipelines de análise de dados em uma estrutura hierárquica de diretórios e gerencia com eficiência grandes volumes de saídas intermediárias
  - Otimização de data loader: permite acesso aleatório a amostras de treino a partir de vários nós de computação, sem necessidade de pré-carregar ou embaralhar o dataset
  - Armazenamento de checkpoints: oferece salvamento paralelo de checkpoints em alta velocidade para treinamentos de grande escala
  - Otimização de inferência baseada em KVCache: mais econômica que cache baseado em DRAM, com alta vazão e grande capacidade de armazenamento
SmallPond - framework leve de processamento de dados construído sobre DuckDB e 3FS
- Destaca-se por processamento de dados de alto desempenho, escalabilidade em grande escala e operação simples
  - Processamento de dados de alto desempenho: usa DuckDB para processamento rápido de dados
  - Suporte a datasets em larga escala: capaz de processar dados em escala de petabytes(PB)
  - Simplicidade operacional: fácil de usar sem serviços de longa execução

Day 6: Divulgação da composição do sistema de inferência do V3/R1 e dos custos/receitas operacionais

Princípios de design do sistema: o objetivo de otimização do sistema de inferência DeepSeek-V3/R1 é maior vazão e menor latência
- Para isso, foi aplicado Expert Parallelism(EP) entre nós para otimização
Custos operacionais da DeepSeek
- Média de 226 nós de GPU (8 GPUs H800 por nó)
- Custo operacional diário: $87,072 (127 milhões de won) - $2/hora por H800
- Receita diária teórica (com base no R1): $562027 (820 milhões de won) → margem de 545%
- No entanto, a receita real é menor (porque o V3 é mais barato que o R1 e apenas parte do serviço foi monetizada)

Paper de infraestrutura de IA de 2024 (SC24)

Fire-Flyer AI-HPC: co-design custo-efetivo de software e hardware para deep learning

Devido ao rápido avanço do deep learning(DL) e dos large language models(LLMs), as demandas por desempenho computacional e largura de banda estão aumentando exponencialmente
O custo de construção de HPC está subindo rapidamente por causa do alto preço de chips de processamento rápidos e interconexões de alta velocidade
Para resolver isso, foi introduzida a arquitetura Fire-Flyer AI-HPC, que alcança otimização de custo e desempenho com base em um design cooperativo entre hardware e software
- Foi construído o sistema Fire-Flyer 2 com 10.000 GPUs PCIe A100 para realizar treinamento de DL
- Oferece desempenho semelhante ao DGX-A100, enquanto reduz o custo pela metade e o consumo de energia em 40%
Elementos de otimização de desempenho
- HFReduce : acelera a comunicação Allreduce para melhorar a sincronização de dados entre GPUs
- Computation-Storage Integrated Network : aplica diversas técnicas de gerenciamento de congestionamento para evitar gargalos de rede
- Software stack : HaiScale, 3FS, HAI-Platform maximizam a escalabilidade ao sobrepor computação e comunicação

2 comentários

xguru 2025-02-23

A DeepSeek realmente continua seguindo um caminho muito interessante. Fico curioso para ver o que será divulgado.

GN⁺ 2025-02-22

Opiniões do Hacker News

Estou me perguntando se sou a única pessoa que está ansiosa pelo lançamento da DeepSeek sem fazer análises exageradas. Este tópico parece cheio de interpretações pessoais
- A DeepSeek continua sendo uma empresa. É um ótimo lançamento, mas parece que as expectativas e motivações estão sendo exageradas
- A expressão "energia pura de garagem" é ótima
- O que mais me interessa é a stack de inferência deles. Embora a maioria das pessoas esteja executando o R1 em um único nó H200, a DeepSeek usou muito menos RAM por GPU para inferência e fez uma implantação de MoE baseada em cluster
- Mais interessante do que os 12 dias de Natal da OpenAI
A partir da próxima semana, eles vão abrir o código de 5 repositórios. Vão divulgar um por dia
- Isso pode ser visto como o anúncio de um anúncio. É melhor não discutir antes de os repositórios reais serem publicados, porque não há detalhes sobre o que exatamente será open source
- Esses são blocos de construção modestos de um serviço online. Foram documentados, implantados e testados em ambiente real
Tenho profundo respeito pela inovação e pela pesquisa da DeepSeek. Por tudo o que eles divulgaram
- A frase "cada linha compartilhada se torna um impulso coletivo que acelera a jornada. Os desbloqueios diários começam em breve. Não é torre de marfim, é pura energia de garagem e inovação guiada pela comunidade" é ótima
Na prática, eles estão desmantelando completamente a OpenAI. Talvez independentemente da própria intenção deles
- LLM foi um "blockchain" muito mais legítimo do que quando a maioria das revistas para CIO publicava ensaios do tipo "qual é a sua estratégia de blockchain?"
- A bolha de IA vai estourar, e no máximo até o fim de 2026
É interessante ver onde está o fosso competitivo na área de IA. Um bom modelo base sempre pode ser destilado quando se tem acesso à API. Prompts de sistema podem vazar, truques de UI podem ser copiados. No fim, o fosso pode estar no hardware e na integração vertical
Será que DeepSeek e OpenAI poderiam trocar de nome?
Tornar ferramentas de infraestrutura open source pode realmente acelerar a inovação na área de IA. Ter acesso a repositórios bem documentados torna muito mais fácil experimentar e construir em cima do trabalho existente
- Fico curioso se esses repositórios estão focados em áreas específicas, como treinamento distribuído ou serving de modelos
Fico curioso para saber como as avaliações das empresas de modelos fundamentais que foram firmemente levadas ao open source pelo Facebook e pela DeepSeek podem competir. Como China e Facebook estão oferecendo a maior parte disso praticamente de graça, não parece que construir esses modelos vá gerar valor na casa das centenas de bilhões de dólares