DeepSeek divulga o open source FlashMLA (1 de 5)

xguru · 2025-02-24T15:14:21+09:00

Kernel de decodificação MLA eficiente para GPUs Hopper Otimizado para servir sequências de comprimento variável O que foi lançado até agora BF16 Paged kvcache com tamanho de bloco 64 Benchmark: usando CUDA 12.6 no H800 SXM5, alcança até 3000GB/s em configuração limitada por memória e 580 TFLOPS em configuração limitada por computação Inspirado em FlashAttention 2&3 e cutlass É o primeiro entre os 5 projetos open source divulgados como DeepSeek Open Infra

(github.com/deepseek-ai)

5 pontos por xguru 2025-02-24 | 2 comentários | Compartilhar no WhatsApp

Kernel de decodificação MLA eficiente para GPUs Hopper
Otimizado para servir sequências de comprimento variável
O que foi lançado até agora
- BF16
- Paged kvcache com tamanho de bloco 64
Benchmark: usando CUDA 12.6 no H800 SXM5, alcança até 3000GB/s em configuração limitada por memória e 580 TFLOPS em configuração limitada por computação
Inspirado em FlashAttention 2&3 e cutlass
É o primeiro entre os 5 projetos open source divulgados como DeepSeek Open Infra

2 comentários

GN⁺ 2025-02-25

Comentários do Hacker News

O vLLM começou a oferecer suporte a MLA para modelos da DeepSeek há 3 semanas. Isso fornece 3x mais throughput de geração e 10x mais capacidade de memória de tokens
- O MHA ainda é mais rápido em ambientes com QPS baixo
- Segundo evidências teóricas, com a mesma sobrecarga de cache KV, o MLA oferece de forma consistente maior poder de representação do que o GQA
- É possível converter modelos pré-treinados amplamente usados baseados em GQA (LLaMA, Qwen, Mixtral etc.) em modelos baseados em MLA
- É bem provável que o MLA se torne o padrão
Se o DeepSeek R1 tivesse usado MHA padrão, teria precisado de 1749KB por token para armazenar o cache KV
- Quando a conversa chegasse a cerca de 46.000 tokens, o cache KV ultrapassaria toda a capacidade de armazenamento de um único H100
- Com MLA, cada token consome 125KB. Isso permite passar de cerca de 640.000 tokens (2x o Ulysses)
Suporte a BF16, cache KV paginado (tamanho de bloco 64), e no H800, 3000 GB/s limitado por memória e 580 TFLOPS limitado por computação
- Muitos desenvolvedores de FANG provavelmente economizaram muito tempo por causa disso
- O ponto decepcionante é que só há suporte para o forward pass. O verdadeiro segredo estava no backward pass
- Eu estava curioso sobre como implementaram o escalonador DualPipe
MLA provavelmente significa Multi-head latent attention
Estou confuso se não havia sanções sobre GPUs Hopper para empresas chinesas. Isso é uma admissão de que conseguiram acessar H100 apesar das sanções dos EUA?
Eu realmente esperava que fosse possível trazer os jogos em Flash de volta com IA
O que daria para fazer com isso?
A OpenAI está de volta

xguru 2025-02-24

FlashAttention-2: Attention mais rápido com melhor paralelismo e divisão de trabalho
FlashAttention-3: Attention rápido e preciso com processamento assíncrono e baixa precisão

DeepSeek divulga o open source FlashMLA (1 de 5)

Leituras relacionadas

2 comentários

Comentários do Hacker News