5 pontos por xguru 2025-02-24 | 2 comentários | Compartilhar no WhatsApp
  • Kernel de decodificação MLA eficiente para GPUs Hopper
  • Otimizado para servir sequências de comprimento variável
  • O que foi lançado até agora
    • BF16
    • Paged kvcache com tamanho de bloco 64
  • Benchmark: usando CUDA 12.6 no H800 SXM5, alcança até 3000GB/s em configuração limitada por memória e 580 TFLOPS em configuração limitada por computação
  • Inspirado em FlashAttention 2&3 e cutlass
  • É o primeiro entre os 5 projetos open source divulgados como DeepSeek Open Infra

2 comentários

 
GN⁺ 2025-02-25

Comentários do Hacker News

  • O vLLM começou a oferecer suporte a MLA para modelos da DeepSeek há 3 semanas. Isso fornece 3x mais throughput de geração e 10x mais capacidade de memória de tokens
    • O MHA ainda é mais rápido em ambientes com QPS baixo
    • Segundo evidências teóricas, com a mesma sobrecarga de cache KV, o MLA oferece de forma consistente maior poder de representação do que o GQA
    • É possível converter modelos pré-treinados amplamente usados baseados em GQA (LLaMA, Qwen, Mixtral etc.) em modelos baseados em MLA
    • É bem provável que o MLA se torne o padrão
  • Se o DeepSeek R1 tivesse usado MHA padrão, teria precisado de 1749KB por token para armazenar o cache KV
    • Quando a conversa chegasse a cerca de 46.000 tokens, o cache KV ultrapassaria toda a capacidade de armazenamento de um único H100
    • Com MLA, cada token consome 125KB. Isso permite passar de cerca de 640.000 tokens (2x o Ulysses)
  • Suporte a BF16, cache KV paginado (tamanho de bloco 64), e no H800, 3000 GB/s limitado por memória e 580 TFLOPS limitado por computação
    • Muitos desenvolvedores de FANG provavelmente economizaram muito tempo por causa disso
    • O ponto decepcionante é que só há suporte para o forward pass. O verdadeiro segredo estava no backward pass
    • Eu estava curioso sobre como implementaram o escalonador DualPipe
  • MLA provavelmente significa Multi-head latent attention
  • Estou confuso se não havia sanções sobre GPUs Hopper para empresas chinesas. Isso é uma admissão de que conseguiram acessar H100 apesar das sanções dos EUA?
  • Eu realmente esperava que fosse possível trazer os jogos em Flash de volta com IA
  • O que daria para fazer com isso?
  • A OpenAI está de volta