DeepSeek divulga o open source FlashMLA (1 de 5)
(github.com/deepseek-ai)- Kernel de decodificação MLA eficiente para GPUs Hopper
- Otimizado para servir sequências de comprimento variável
- O que foi lançado até agora
- BF16
Paged kvcachecom tamanho de bloco 64
- Benchmark: usando CUDA 12.6 no H800 SXM5, alcança até 3000GB/s em configuração limitada por memória e 580 TFLOPS em configuração limitada por computação
- Inspirado em FlashAttention 2&3 e cutlass
- É o primeiro entre os 5 projetos open source divulgados como DeepSeek Open Infra
2 comentários
Comentários do Hacker News
FlashAttention-2: Attention mais rápido com melhor paralelismo e divisão de trabalho
FlashAttention-3: Attention rápido e preciso com processamento assíncrono e baixa precisão