LLaMA-CPU - um fork para executar o LLaMA na CPU
(github.com/markasoftware)- Executa o modelo LLaMA da Meta na CPU
- A configuração é quase a mesma
- Ao testar com o modelo 7B, para carregar, é necessário usar swap/zram mesmo com 32 GiB de RAM
- Na inferência real, usa apenas cerca de menos de 20 GiB de RAM
- Em um Ryzen 7900X, o modelo 7B consegue inferir algumas palavras por segundo
Ainda não há comentários.