llama.cpp adiciona aceleração completa de GPU CUDA
(github.com/ggerganov)- PR que adiciona aceleração por GPU a todos os tensores
ggmlrestantes - Em uma RTX 3090, o processamento de prompts fica 2x mais rápido, e a geração de tokens acelera de 1,3x a 1,8x
- Em uma 4090+i9, o modelo 7B q4 gera 109 tokens por segundo
Ainda não há comentários.