1 pontos por GN⁺ 2025-05-06 | 1 comentários | Compartilhar no WhatsApp
  • O MVDRAM é um sistema que acelera operações GeMV para inferência de LLMs de baixa precisão usando DRAM sem modificações
  • Ele utiliza a DRAM como mecanismo de GeMV para oferecer alta taxa de processamento
  • Elimina os custos de pré-organização de entradas e de conversão de bits de saída das abordagens PUD existentes
  • Resultados experimentais mostram desempenho superior ao de implementações baseadas em processador em LLMs de baixa precisão
  • Aponta novas possibilidades para hardware de IA

MVDRAM: aceleração de LLMs de baixa precisão com DRAM sem modificações

  • As operações GeMV continuam sendo um gargalo importante de latência na inferência de grandes modelos de linguagem (LLMs)
  • Processing-Using-DRAM (PUD) tem potencial para reaproveitar a DRAM como um mecanismo de GeMV
  • No entanto, aplicar PUD ao pipeline de inferência de LLMs gera overhead significativo

A abordagem inovadora do MVDRAM

  • O MVDRAM coordena processador e DRAM aproveitando padrões de compartilhamento de dados e linearidade matemática
  • Ele acelera operações GeMV ao eliminar os custos das abordagens PUD tradicionais

Resultados experimentais

  • Em experimentos com quatro módulos DDR4 DRAM, o MVDRAM apresentou desempenho superior ao de implementações baseadas em processador em LLMs de baixa precisão (4 bits ou menos)
  • Alcançou até 7,29x de ganho de velocidade e 30,5x de eficiência energética

Melhoria geral na inferência de LLMs

  • Em modelos de baixa precisão quantizados em 2 bits e 4 bits, mostrou melhorias de taxa de processamento de 2,18x e 1,31x, respectivamente
  • A eficiência energética também melhorou em 3,04x e 2,35x, respectivamente

Novas possibilidades para hardware de IA

  • O MVDRAM demonstra a possibilidade de usar DRAM padrão como acelerador para LLMs
  • Tem potencial para abrir novos horizontes para hardware de IA

1 comentários

 
GN⁺ 2025-05-06
Comentários do Hacker News
  • Há informações sobre uma das primeiras propostas de computação dentro da DRAM

    • Há a primeira demonstração usando componentes comerciais
    • Está sendo implementado usando uma ferramenta chamada DRAM Bender
    • Há um artigo sobre avanços recentes em processamento dentro da DRAM
  • Alguém observou que a lista de autores das referências 1 e 3 é muito longa

    • Havia expectativa pelo artigo de 2016, mas ele não foi incluído
    • O artigo de 2019 está incluído
    • O comportamento fora da especificação da DRAM, especialmente a funcionalidade de cópia, está ligado a bugs notórios
  • É possível alcançar processamento massivamente paralelo emitindo comandos de DRAM de forma intencional, violando os parâmetros de temporização especificados pelo fabricante

    • Isso representa um desafio para blobs binários de treinamento de DRAM
  • A ideia é muito original e criativa

    • Trabalhar nos detalhes pode ser recompensador
  • Explorar bugs no mundo do hardware pode ser arriscado

    • No mundo do software, não é bom ativar funcionalidades explorando bugs da plataforma
    • Se o bug for corrigido, o sistema pode passar a se comportar de forma inesperada
  • Estão realizando operações matriciais na própria DRAM

    • É uma ideia muito interessante e surpreendente
  • Há menção à multiplicação geral matriz-vetor (GeMV)

    • Há pessoas que não têm muita compreensão matemática
    • Quatérnios ganharam popularidade por serem computacionalmente menos complexos do que matrizes
    • Também há quem se pergunte se já houve casos de construção de LLMs usando quatérnios
  • Há uma opinião apontando que não citar a fonte original do Intelligent RAM (IRAM), de 1997, é algo anticientífico

  • Alguém se pergunta se a multiplicação de matrizes e outras operações podem migrar de CPUs tradicionais para a DRAM

    • Há a pergunta se essa mudança de processamento poderia beneficiar empresas como a Samsung
    • Há curiosidade sobre o que aconteceria com empresas como a NVIDIA
  • Pode ser uma forma interessante de criar dispositivos de inferência baratos para LLMs de grande porte