- A equipe de IA da DeepSeek está se esforçando para ultrapassar limites na exploração de AGI
- A partir da próxima semana, pretende publicar 5 repositórios como open source, com o objetivo de compartilhar de forma transparente pequenos avanços como desenvolvedora
- Estes são componentes fundamentais de serviços online, com código documentado, implantado e testado em ambientes reais
- Um novo código será divulgado todos os dias, com o objetivo de promover inovação guiada pela comunidade
- Kernel eficiente de decodificação MLA para GPUs Hopper
- Otimizado para servir sequências de comprimento variável
- O que foi lançado até agora
- BF16
- Paged kvcache com tamanho de bloco 64
- Benchmark: usando CUDA 12.6 no H800 SXM5, alcançou até 3000GB/s em configurações limitadas por memória e 580 TFLOPS em configurações limitadas por computação
- Biblioteca de comunicação de alto desempenho para Mixture-of-Experts(MoE) e Expert Parallelism(EP)
- Fornece kernels All-to-All baseados em GPU para processar rapidamente operações de despacho e combinação de MoE
- Suporte a operações de baixa precisão como FP8
- Aplica o algoritmo de group-limited gating proposto no paper DeepSeek-V3 para otimizar o encaminhamento de banda de domínio assimétrico
- Ex.: otimização da transferência de dados NVLink → RDMA
- Oferece alta vazão adequada para treinamento e tarefas de prefilling de inferência
- Inclui kernel dedicado RDMA de baixa latência para decodificação de inferência sensível à latência
- Fornece técnica de sobreposição entre comunicação e computação (sem ocupar recursos de SM)
- Biblioteca para executar com eficiência multiplicação de matrizes FP8 (GEMM), com suporte ao método de fine-grained scaling proposto no DeepSeek-V3
- Suporta tanto GEMM geral quanto GEMM agrupado de Mix-of-Experts(MoE)
- Implementada com base em CUDA e compila kernels em tempo de execução usando um módulo leve de Just-In-Time(JIT), sem compilação separada durante a instalação
- Atualmente compatível apenas com Tensor Cores NVIDIA Hopper
- Usa acumulação dupla (promotion) baseada em CUDA cores para compensar a acumulação imprecisa dos Tensor Cores FP8
- Aproveita alguns conceitos de CUTLASS e CuTe, mas com um design simples que reduz dependências complexas de templates e inclui apenas cerca de 300 linhas de código de kernel
- Adequada para aprender operações matriciais FP8 e técnicas de otimização no Hopper
- Apesar do design leve, apresenta desempenho semelhante ou superior ao de bibliotecas ajustadas em nível especialista em vários tamanhos de matriz
- Estratégias e códigos usados no DeepSeek V3/R1
- DualPipe: algoritmo de paralelismo em pipeline bidirecional para sobreposição entre computação e comunicação
- EPLB: balanceador de carga Expert-Parallel
- Profile-Data: profiling de dados da infraestrutura da DeepSeek para analisar a sobreposição entre computação e comunicação
- O Fire-Flyer File System(3FS) é um sistema de arquivos distribuído de alto desempenho projetado para lidar com workloads de treinamento e inferência em IA
- Usa SSDs de última geração e redes RDMA para fornecer uma camada de armazenamento compartilhado e simplificar o desenvolvimento de aplicações distribuídas
- Principais características e vantagens
- Desempenho e usabilidade
- Arquitetura desagregada: combina milhares de SSDs e a largura de banda de rede de centenas de nós de armazenamento, permitindo acessar recursos de armazenamento independentemente da localidade
- Garantia forte de consistência: mantém a consistência usando Chain Replication with Apportioned Queries(CRAQ), simplificando o código das aplicações
- Suporte a interface de arquivo: fornece um serviço de metadados sem estado com base em um armazenamento transacional chave-valor construído sobre FoundationDB. Como usa interfaces de arquivo existentes, não é necessário aprender uma nova API de armazenamento
- Suporte a vários workloads
- Preparação de dados: organiza a saída de pipelines de análise de dados em uma estrutura hierárquica de diretórios e gerencia com eficiência grandes volumes de saídas intermediárias
- Otimização de data loader: permite acesso aleatório a amostras de treino a partir de vários nós de computação, sem necessidade de pré-carregar ou embaralhar o dataset
- Armazenamento de checkpoints: oferece salvamento paralelo de checkpoints em alta velocidade para treinamentos de grande escala
- Otimização de inferência baseada em KVCache: mais econômica que cache baseado em DRAM, com alta vazão e grande capacidade de armazenamento
- SmallPond - framework leve de processamento de dados construído sobre DuckDB e 3FS
- Destaca-se por processamento de dados de alto desempenho, escalabilidade em grande escala e operação simples
- Processamento de dados de alto desempenho: usa DuckDB para processamento rápido de dados
- Suporte a datasets em larga escala: capaz de processar dados em escala de petabytes(PB)
- Simplicidade operacional: fácil de usar sem serviços de longa execução
- Princípios de design do sistema: o objetivo de otimização do sistema de inferência DeepSeek-V3/R1 é maior vazão e menor latência
- Para isso, foi aplicado Expert Parallelism(EP) entre nós para otimização
- Custos operacionais da DeepSeek
- Média de 226 nós de GPU (8 GPUs H800 por nó)
- Custo operacional diário: $87,072 (127 milhões de won) - $2/hora por H800
- Receita diária teórica (com base no R1): $562027 (820 milhões de won) → margem de 545%
- No entanto, a receita real é menor (porque o V3 é mais barato que o R1 e apenas parte do serviço foi monetizada)
Paper de infraestrutura de IA de 2024 (SC24)
Fire-Flyer AI-HPC: co-design custo-efetivo de software e hardware para deep learning
- Devido ao rápido avanço do deep learning(DL) e dos large language models(LLMs), as demandas por desempenho computacional e largura de banda estão aumentando exponencialmente
- O custo de construção de HPC está subindo rapidamente por causa do alto preço de chips de processamento rápidos e interconexões de alta velocidade
- Para resolver isso, foi introduzida a arquitetura Fire-Flyer AI-HPC, que alcança otimização de custo e desempenho com base em um design cooperativo entre hardware e software
- Foi construído o sistema Fire-Flyer 2 com 10.000 GPUs PCIe A100 para realizar treinamento de DL
- Oferece desempenho semelhante ao DGX-A100, enquanto reduz o custo pela metade e o consumo de energia em 40%
- Elementos de otimização de desempenho
- HFReduce : acelera a comunicação Allreduce para melhorar a sincronização de dados entre GPUs
- Computation-Storage Integrated Network : aplica diversas técnicas de gerenciamento de congestionamento para evitar gargalos de rede
- Software stack : HaiScale, 3FS, HAI-Platform maximizam a escalabilidade ao sobrepor computação e comunicação
2 comentários
A DeepSeek realmente continua seguindo um caminho muito interessante. Fico curioso para ver o que será divulgado.
Opiniões do Hacker News
Estou me perguntando se sou a única pessoa que está ansiosa pelo lançamento da DeepSeek sem fazer análises exageradas. Este tópico parece cheio de interpretações pessoais
A partir da próxima semana, eles vão abrir o código de 5 repositórios. Vão divulgar um por dia
Tenho profundo respeito pela inovação e pela pesquisa da DeepSeek. Por tudo o que eles divulgaram
Na prática, eles estão desmantelando completamente a OpenAI. Talvez independentemente da própria intenção deles
É interessante ver onde está o fosso competitivo na área de IA. Um bom modelo base sempre pode ser destilado quando se tem acesso à API. Prompts de sistema podem vazar, truques de UI podem ser copiados. No fim, o fosso pode estar no hardware e na integração vertical
Será que DeepSeek e OpenAI poderiam trocar de nome?
Tornar ferramentas de infraestrutura open source pode realmente acelerar a inovação na área de IA. Ter acesso a repositórios bem documentados torna muito mais fácil experimentar e construir em cima do trabalho existente
Fico curioso para saber como as avaliações das empresas de modelos fundamentais que foram firmemente levadas ao open source pelo Facebook e pela DeepSeek podem competir. Como China e Facebook estão oferecendo a maior parte disso praticamente de graça, não parece que construir esses modelos vá gerar valor na casa das centenas de bilhões de dólares