MiniLLM - Executando LLMs em GPUs pessoais
(github.com/kuleshov)- Sistema minimalista para executar os LLMs mais recentes em GPUs Nvidia para consumidores
- Suporta vários LLMs (LLAMA, BLOOM, OPT) em escala de até 170B
- Suporta diversos tipos de GPUs Nvidia
- Código pequeno e fácil de usar em Python
- Internamente usa o algoritmo GPTQ para compressão em 3 bits, minimizando o uso de memória da GPU
Ainda não há comentários.