22 pontos por xguru 2023-03-30 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Sistema minimalista para executar os LLMs mais recentes em GPUs Nvidia para consumidores
  • Suporta vários LLMs (LLAMA, BLOOM, OPT) em escala de até 170B
  • Suporta diversos tipos de GPUs Nvidia
  • Código pequeno e fácil de usar em Python
  • Internamente usa o algoritmo GPTQ para compressão em 3 bits, minimizando o uso de memória da GPU

Ainda não há comentários.

Ainda não há comentários.