PowerInfer - Servindo LLMs rapidamente usando GPUs de consumo

xguru · 2023-12-21T10:51:02+09:00

11 vezes mais rápido que o llama.cpp ao executar o Falcon(ReLU)-40B-FP16 em uma RTX 4090 (24G) Motor de inferência de LLM híbrido CPU/GPU que aproveita a localidade de ativação do dispositivo Distingue entre alguns neurônios quentes, que são ativados de forma consistente, e a maioria dos neurônios frios, que variam conforme a entrada específica Os neurônios quentes são pré-carregados na GPU para ativação rápida, enquanto os neurônios frios são calculados na CPU, reduzindo bastante os requisitos de memória da GPU e a transferência de dados entre CPU e GPU Integra um preditor adaptativo e operadores esparsos com reconhecimento de neurônios para otimizar a eficiência da ativação neuronal e da esparsidade computacional Em uma única GPU NVIDIA RTX 4090, alcança velocidade de geração de tokens de 13,20 tokens/s em média e até 29,08 tokens/s em vários LLMs (incluindo o OPT-175B) Isso é apenas 18% inferior ao que foi alcançado pela GPU A100 de ponta para servidores Mantendo a precisão do modelo, supera amplamente o desempenho do llama.cpp em até 11,69 vezes

(github.com/SJTU-IPADS)

16 pontos por xguru 2023-12-21 | 1 comentários | Compartilhar no WhatsApp

11 vezes mais rápido que o llama.cpp ao executar o Falcon(ReLU)-40B-FP16 em uma RTX 4090 (24G)
Motor de inferência de LLM híbrido CPU/GPU que aproveita a localidade de ativação do dispositivo
- Distingue entre alguns neurônios quentes, que são ativados de forma consistente, e a maioria dos neurônios frios, que variam conforme a entrada específica
- Os neurônios quentes são pré-carregados na GPU para ativação rápida, enquanto os neurônios frios são calculados na CPU, reduzindo bastante os requisitos de memória da GPU e a transferência de dados entre CPU e GPU
Integra um preditor adaptativo e operadores esparsos com reconhecimento de neurônios para otimizar a eficiência da ativação neuronal e da esparsidade computacional
Em uma única GPU NVIDIA RTX 4090, alcança velocidade de geração de tokens de 13,20 tokens/s em média e até 29,08 tokens/s em vários LLMs (incluindo o OPT-175B)
- Isso é apenas 18% inferior ao que foi alcançado pela GPU A100 de ponta para servidores
- Mantendo a precisão do modelo, supera amplamente o desempenho do llama.cpp em até 11,69 vezes

1 comentários

cosine20 2023-12-28

A 4090 é de consumidor, sim kkk.....

PowerInfer - Servindo LLMs rapidamente usando GPUs de consumo

Leituras relacionadas

1 comentários