llama.cpp - Inferência do modelo LLaMA do Facebook em C/C++ puro
(github.com/ggerganov)- Objetivo de executar o modelo LLaMA em um MacBook com quantização de 4 bits
- Implementação em C/C++ puro, sem dependências
- Otimizado para Arm Neon/framework Accelerate (Apple Silicon)
- Suporte a AVX2 para x86
- Precisão mista F16/F32
- Suporte a quantização de 4 bits
- Execução na CPU
- Atualmente, suporta apenas Mac/Linux. Suporte ao Windows previsto
1 comentários
Testei o modelo 7B e ele roda melhor do que eu esperava.