llama.cpp adiciona aceleração completa de GPU CUDA

xguru · 2023-06-14T10:46:02+09:00

PR que adiciona aceleração por GPU a todos os tensores ggml restantes Em uma RTX 3090, o processamento de prompts fica 2x mais rápido, e a geração de tokens acelera de 1,3x a 1,8x Em uma 4090+i9, o modelo 7B q4 gera 109 tokens por segundo

(github.com/ggerganov)

8 pontos por xguru 2023-06-14 | Ainda não há comentários. | Compartilhar no WhatsApp

PR que adiciona aceleração por GPU a todos os tensores ggml restantes
Em uma RTX 3090, o processamento de prompts fica 2x mais rápido, e a geração de tokens acelera de 1,3x a 1,8x
Em uma 4090+i9, o modelo 7B q4 gera 109 tokens por segundo

llama.cpp adiciona aceleração completa de GPU CUDA

Leituras relacionadas

Ainda não há comentários.