llama.cpp - Inferência do modelo LLaMA do Facebook em C/C++ puro

xguru · 2023-03-13T11:26:01+09:00

Objetivo de executar o modelo LLaMA em um MacBook com quantização de 4 bits Implementação em C/C++ puro, sem dependências Otimizado para Arm Neon/framework Accelerate (Apple Silicon) Suporte a AVX2 para x86 Precisão mista F16/F32 Suporte a quantização de 4 bits Execução na CPU Atualmente, suporta apenas Mac/Linux. Suporte ao Windows previsto

(github.com/ggerganov)

16 pontos por xguru 2023-03-13 | 1 comentários | Compartilhar no WhatsApp

Objetivo de executar o modelo LLaMA em um MacBook com quantização de 4 bits
Implementação em C/C++ puro, sem dependências
Otimizado para Arm Neon/framework Accelerate (Apple Silicon)
Suporte a AVX2 para x86
Precisão mista F16/F32
Suporte a quantização de 4 bits
Execução na CPU
Atualmente, suporta apenas Mac/Linux. Suporte ao Windows previsto

1 comentários

laeyoung 2023-03-14

Testei o modelo 7B e ele roda melhor do que eu esperava.

llama.cpp - Inferência do modelo LLaMA do Facebook em C/C++ puro

Leituras relacionadas

1 comentários