- O MVDRAM é um sistema que acelera operações GeMV para inferência de LLMs de baixa precisão usando DRAM sem modificações
- Ele utiliza a DRAM como mecanismo de GeMV para oferecer alta taxa de processamento
- Elimina os custos de pré-organização de entradas e de conversão de bits de saída das abordagens PUD existentes
- Resultados experimentais mostram desempenho superior ao de implementações baseadas em processador em LLMs de baixa precisão
- Aponta novas possibilidades para hardware de IA
MVDRAM: aceleração de LLMs de baixa precisão com DRAM sem modificações
- As operações GeMV continuam sendo um gargalo importante de latência na inferência de grandes modelos de linguagem (LLMs)
- Processing-Using-DRAM (PUD) tem potencial para reaproveitar a DRAM como um mecanismo de GeMV
- No entanto, aplicar PUD ao pipeline de inferência de LLMs gera overhead significativo
A abordagem inovadora do MVDRAM
- O MVDRAM coordena processador e DRAM aproveitando padrões de compartilhamento de dados e linearidade matemática
- Ele acelera operações GeMV ao eliminar os custos das abordagens PUD tradicionais
Resultados experimentais
- Em experimentos com quatro módulos DDR4 DRAM, o MVDRAM apresentou desempenho superior ao de implementações baseadas em processador em LLMs de baixa precisão (4 bits ou menos)
- Alcançou até 7,29x de ganho de velocidade e 30,5x de eficiência energética
Melhoria geral na inferência de LLMs
- Em modelos de baixa precisão quantizados em 2 bits e 4 bits, mostrou melhorias de taxa de processamento de 2,18x e 1,31x, respectivamente
- A eficiência energética também melhorou em 3,04x e 2,35x, respectivamente
Novas possibilidades para hardware de IA
- O MVDRAM demonstra a possibilidade de usar DRAM padrão como acelerador para LLMs
- Tem potencial para abrir novos horizontes para hardware de IA
1 comentários
Comentários do Hacker News
Há informações sobre uma das primeiras propostas de computação dentro da DRAM
Alguém observou que a lista de autores das referências 1 e 3 é muito longa
É possível alcançar processamento massivamente paralelo emitindo comandos de DRAM de forma intencional, violando os parâmetros de temporização especificados pelo fabricante
A ideia é muito original e criativa
Explorar bugs no mundo do hardware pode ser arriscado
Estão realizando operações matriciais na própria DRAM
Há menção à multiplicação geral matriz-vetor (GeMV)
Há uma opinião apontando que não citar a fonte original do Intelligent RAM (IRAM), de 1997, é algo anticientífico
Alguém se pergunta se a multiplicação de matrizes e outras operações podem migrar de CPUs tradicionais para a DRAM
Pode ser uma forma interessante de criar dispositivos de inferência baratos para LLMs de grande porte