9 pontos por GN⁺ 2025-02-22 | 2 comentários | Compartilhar no WhatsApp
  • A equipe de IA da DeepSeek está se esforçando para ultrapassar limites na exploração de AGI
  • A partir da próxima semana, pretende publicar 5 repositórios como open source, com o objetivo de compartilhar de forma transparente pequenos avanços como desenvolvedora
  • Estes são componentes fundamentais de serviços online, com código documentado, implantado e testado em ambientes reais
  • Um novo código será divulgado todos os dias, com o objetivo de promover inovação guiada pela comunidade

Day 1: FlashMLA

  • Kernel eficiente de decodificação MLA para GPUs Hopper
  • Otimizado para servir sequências de comprimento variável
  • O que foi lançado até agora
    • BF16
    • Paged kvcache com tamanho de bloco 64
  • Benchmark: usando CUDA 12.6 no H800 SXM5, alcançou até 3000GB/s em configurações limitadas por memória e 580 TFLOPS em configurações limitadas por computação

Day 2: DeepEP

  • Biblioteca de comunicação de alto desempenho para Mixture-of-Experts(MoE) e Expert Parallelism(EP)
  • Fornece kernels All-to-All baseados em GPU para processar rapidamente operações de despacho e combinação de MoE
  • Suporte a operações de baixa precisão como FP8
  • Aplica o algoritmo de group-limited gating proposto no paper DeepSeek-V3 para otimizar o encaminhamento de banda de domínio assimétrico
    • Ex.: otimização da transferência de dados NVLink → RDMA
    • Oferece alta vazão adequada para treinamento e tarefas de prefilling de inferência
  • Inclui kernel dedicado RDMA de baixa latência para decodificação de inferência sensível à latência
  • Fornece técnica de sobreposição entre comunicação e computação (sem ocupar recursos de SM)

Day 3: DeepGEMM

  • Biblioteca para executar com eficiência multiplicação de matrizes FP8 (GEMM), com suporte ao método de fine-grained scaling proposto no DeepSeek-V3
  • Suporta tanto GEMM geral quanto GEMM agrupado de Mix-of-Experts(MoE)
  • Implementada com base em CUDA e compila kernels em tempo de execução usando um módulo leve de Just-In-Time(JIT), sem compilação separada durante a instalação
  • Atualmente compatível apenas com Tensor Cores NVIDIA Hopper
  • Usa acumulação dupla (promotion) baseada em CUDA cores para compensar a acumulação imprecisa dos Tensor Cores FP8
  • Aproveita alguns conceitos de CUTLASS e CuTe, mas com um design simples que reduz dependências complexas de templates e inclui apenas cerca de 300 linhas de código de kernel
  • Adequada para aprender operações matriciais FP8 e técnicas de otimização no Hopper
  • Apesar do design leve, apresenta desempenho semelhante ou superior ao de bibliotecas ajustadas em nível especialista em vários tamanhos de matriz

Day 4: Estratégias otimizadas de processamento paralelo: DualPipe, EPLB, Profile-Data

  • Estratégias e códigos usados no DeepSeek V3/R1
    • DualPipe: algoritmo de paralelismo em pipeline bidirecional para sobreposição entre computação e comunicação
    • EPLB: balanceador de carga Expert-Parallel
    • Profile-Data: profiling de dados da infraestrutura da DeepSeek para analisar a sobreposição entre computação e comunicação

Day 5: Sistema de arquivos 3FS e framework de processamento de dados Smallpond

  • O Fire-Flyer File System(3FS) é um sistema de arquivos distribuído de alto desempenho projetado para lidar com workloads de treinamento e inferência em IA
  • Usa SSDs de última geração e redes RDMA para fornecer uma camada de armazenamento compartilhado e simplificar o desenvolvimento de aplicações distribuídas
  • Principais características e vantagens
    • Desempenho e usabilidade
      • Arquitetura desagregada: combina milhares de SSDs e a largura de banda de rede de centenas de nós de armazenamento, permitindo acessar recursos de armazenamento independentemente da localidade
      • Garantia forte de consistência: mantém a consistência usando Chain Replication with Apportioned Queries(CRAQ), simplificando o código das aplicações
      • Suporte a interface de arquivo: fornece um serviço de metadados sem estado com base em um armazenamento transacional chave-valor construído sobre FoundationDB. Como usa interfaces de arquivo existentes, não é necessário aprender uma nova API de armazenamento
    • Suporte a vários workloads
      • Preparação de dados: organiza a saída de pipelines de análise de dados em uma estrutura hierárquica de diretórios e gerencia com eficiência grandes volumes de saídas intermediárias
      • Otimização de data loader: permite acesso aleatório a amostras de treino a partir de vários nós de computação, sem necessidade de pré-carregar ou embaralhar o dataset
      • Armazenamento de checkpoints: oferece salvamento paralelo de checkpoints em alta velocidade para treinamentos de grande escala
      • Otimização de inferência baseada em KVCache: mais econômica que cache baseado em DRAM, com alta vazão e grande capacidade de armazenamento
  • SmallPond - framework leve de processamento de dados construído sobre DuckDB e 3FS
    • Destaca-se por processamento de dados de alto desempenho, escalabilidade em grande escala e operação simples
      • Processamento de dados de alto desempenho: usa DuckDB para processamento rápido de dados
      • Suporte a datasets em larga escala: capaz de processar dados em escala de petabytes(PB)
      • Simplicidade operacional: fácil de usar sem serviços de longa execução

Day 6: Divulgação da composição do sistema de inferência do V3/R1 e dos custos/receitas operacionais

  • Princípios de design do sistema: o objetivo de otimização do sistema de inferência DeepSeek-V3/R1 é maior vazão e menor latência
    • Para isso, foi aplicado Expert Parallelism(EP) entre nós para otimização
  • Custos operacionais da DeepSeek
    • Média de 226 nós de GPU (8 GPUs H800 por nó)
    • Custo operacional diário: $87,072 (127 milhões de won) - $2/hora por H800
    • Receita diária teórica (com base no R1): $562027 (820 milhões de won) → margem de 545%
    • No entanto, a receita real é menor (porque o V3 é mais barato que o R1 e apenas parte do serviço foi monetizada)

Paper de infraestrutura de IA de 2024 (SC24)

Fire-Flyer AI-HPC: co-design custo-efetivo de software e hardware para deep learning

  • Devido ao rápido avanço do deep learning(DL) e dos large language models(LLMs), as demandas por desempenho computacional e largura de banda estão aumentando exponencialmente
  • O custo de construção de HPC está subindo rapidamente por causa do alto preço de chips de processamento rápidos e interconexões de alta velocidade
  • Para resolver isso, foi introduzida a arquitetura Fire-Flyer AI-HPC, que alcança otimização de custo e desempenho com base em um design cooperativo entre hardware e software
    • Foi construído o sistema Fire-Flyer 2 com 10.000 GPUs PCIe A100 para realizar treinamento de DL
    • Oferece desempenho semelhante ao DGX-A100, enquanto reduz o custo pela metade e o consumo de energia em 40%
  • Elementos de otimização de desempenho
    • HFReduce : acelera a comunicação Allreduce para melhorar a sincronização de dados entre GPUs
    • Computation-Storage Integrated Network : aplica diversas técnicas de gerenciamento de congestionamento para evitar gargalos de rede
    • Software stack : HaiScale, 3FS, HAI-Platform maximizam a escalabilidade ao sobrepor computação e comunicação

2 comentários

 
xguru 2025-02-23

A DeepSeek realmente continua seguindo um caminho muito interessante. Fico curioso para ver o que será divulgado.

 
GN⁺ 2025-02-22
Opiniões do Hacker News
  • Estou me perguntando se sou a única pessoa que está ansiosa pelo lançamento da DeepSeek sem fazer análises exageradas. Este tópico parece cheio de interpretações pessoais

    • A DeepSeek continua sendo uma empresa. É um ótimo lançamento, mas parece que as expectativas e motivações estão sendo exageradas
    • A expressão "energia pura de garagem" é ótima
    • O que mais me interessa é a stack de inferência deles. Embora a maioria das pessoas esteja executando o R1 em um único nó H200, a DeepSeek usou muito menos RAM por GPU para inferência e fez uma implantação de MoE baseada em cluster
    • Mais interessante do que os 12 dias de Natal da OpenAI
  • A partir da próxima semana, eles vão abrir o código de 5 repositórios. Vão divulgar um por dia

    • Isso pode ser visto como o anúncio de um anúncio. É melhor não discutir antes de os repositórios reais serem publicados, porque não há detalhes sobre o que exatamente será open source
    • Esses são blocos de construção modestos de um serviço online. Foram documentados, implantados e testados em ambiente real
  • Tenho profundo respeito pela inovação e pela pesquisa da DeepSeek. Por tudo o que eles divulgaram

    • A frase "cada linha compartilhada se torna um impulso coletivo que acelera a jornada. Os desbloqueios diários começam em breve. Não é torre de marfim, é pura energia de garagem e inovação guiada pela comunidade" é ótima
  • Na prática, eles estão desmantelando completamente a OpenAI. Talvez independentemente da própria intenção deles

    • LLM foi um "blockchain" muito mais legítimo do que quando a maioria das revistas para CIO publicava ensaios do tipo "qual é a sua estratégia de blockchain?"
    • A bolha de IA vai estourar, e no máximo até o fim de 2026
  • É interessante ver onde está o fosso competitivo na área de IA. Um bom modelo base sempre pode ser destilado quando se tem acesso à API. Prompts de sistema podem vazar, truques de UI podem ser copiados. No fim, o fosso pode estar no hardware e na integração vertical

  • Será que DeepSeek e OpenAI poderiam trocar de nome?

  • Tornar ferramentas de infraestrutura open source pode realmente acelerar a inovação na área de IA. Ter acesso a repositórios bem documentados torna muito mais fácil experimentar e construir em cima do trabalho existente

    • Fico curioso se esses repositórios estão focados em áreas específicas, como treinamento distribuído ou serving de modelos
  • Fico curioso para saber como as avaliações das empresas de modelos fundamentais que foram firmemente levadas ao open source pelo Facebook e pela DeepSeek podem competir. Como China e Facebook estão oferecendo a maior parte disso praticamente de graça, não parece que construir esses modelos vá gerar valor na casa das centenas de bilhões de dólares