8 pontos por xguru 2023-06-14 | Ainda não há comentários. | Compartilhar no WhatsApp
  • PR que adiciona aceleração por GPU a todos os tensores ggml restantes
  • Em uma RTX 3090, o processamento de prompts fica 2x mais rápido, e a geração de tokens acelera de 1,3x a 1,8x
  • Em uma 4090+i9, o modelo 7B q4 gera 109 tokens por segundo

Ainda não há comentários.

Ainda não há comentários.