14 pontos por xguru 2023-02-22 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Um engine de geração de alto desempenho para executar LLMs em ambientes com GPU limitada, como 16GB T4 / 24GB RTX3090
  • Com offloading extremamente rápido, de até cerca de 100x, é possível executar um modelo de 175B em uma única GPU
  • Comprime ao máximo os parâmetros e o cache de atenção (reduzindo até 4 bits com quase nenhuma perda de precisão)
  • Runtime paralelo distribuído que permite escalar facilmente ao adicionar mais GPUs

Ainda não há comentários.

Ainda não há comentários.