FlexGen - Executando LLMs como o ChatGPT em uma única GPU

xguru · 2023-02-22T10:16:02+09:00

Um engine de geração de alto desempenho para executar LLMs em ambientes com GPU limitada, como 16GB T4 / 24GB RTX3090 Com offloading extremamente rápido, de até cerca de 100x, é possível executar um modelo de 175B em uma única GPU Comprime ao máximo os parâmetros e o cache de atenção (reduzindo até 4 bits com quase nenhuma perda de precisão) Runtime paralelo distribuído que permite escalar facilmente ao adicionar mais GPUs

(github.com/FMInference)

14 pontos por xguru 2023-02-22 | Ainda não há comentários. | Compartilhar no WhatsApp

Um engine de geração de alto desempenho para executar LLMs em ambientes com GPU limitada, como 16GB T4 / 24GB RTX3090
Com offloading extremamente rápido, de até cerca de 100x, é possível executar um modelo de 175B em uma única GPU
Comprime ao máximo os parâmetros e o cache de atenção (reduzindo até 4 bits com quase nenhuma perda de precisão)
Runtime paralelo distribuído que permite escalar facilmente ao adicionar mais GPUs

FlexGen - Executando LLMs como o ChatGPT em uma única GPU

Leituras relacionadas

Ainda não há comentários.