Melhoria de 10 a 100 vezes na velocidade de carregamento dos pesos do modelo no llama.cpp

xguru · 2023-04-03T10:03:01+09:00

Com a mudança no formato de arquivo, agora é possível usar mmap() sem read(), tornando o carregamento dos pesos de 10 a 100 vezes mais rápido Também passou a oferecer suporte a 7B em arquivo único e 13B em múltiplos arquivos, e o código de carregamento ficou muito mais simples Além disso, com essa mudança, os tensores passam a ficar alinhados em limites de 32 bytes, o que pode trazer ganhos adicionais de desempenho em certos processadores

(github.com/ggerganov)

13 pontos por xguru 2023-04-03 | 1 comentários | Compartilhar no WhatsApp

Com a mudança no formato de arquivo, agora é possível usar mmap() sem read(), tornando o carregamento dos pesos de 10 a 100 vezes mais rápido
Também passou a oferecer suporte a 7B em arquivo único e 13B em múltiplos arquivos, e o código de carregamento ficou muito mais simples
Além disso, com essa mudança, os tensores passam a ficar alinhados em limites de 32 bytes, o que pode trazer ganhos adicionais de desempenho em certos processadores

1 comentários

xguru 2023-04-03

LLaMA - LLM de 65 bilhões de parâmetros divulgado pela Meta
llama.cpp - inferência do modelo LLaMA do Facebook em C/C++ puro

Melhoria de 10 a 100 vezes na velocidade de carregamento dos pesos do modelo no llama.cpp

Leituras relacionadas

1 comentários