FlexGen - Executando LLMs como o ChatGPT em uma única GPU
(github.com/FMInference)- Um engine de geração de alto desempenho para executar LLMs em ambientes com GPU limitada, como 16GB T4 / 24GB RTX3090
- Com offloading extremamente rápido, de até cerca de 100x, é possível executar um modelo de 175B em uma única GPU
- Comprime ao máximo os parâmetros e o cache de atenção (reduzindo até 4 bits com quase nenhuma perda de precisão)
- Runtime paralelo distribuído que permite escalar facilmente ao adicionar mais GPUs
Ainda não há comentários.