Melhoria de 10 a 100 vezes na velocidade de carregamento dos pesos do modelo no llama.cpp
(github.com/ggerganov)- Com a mudança no formato de arquivo, agora é possível usar
mmap()semread(), tornando o carregamento dos pesos de 10 a 100 vezes mais rápido - Também passou a oferecer suporte a 7B em arquivo único e 13B em múltiplos arquivos, e o código de carregamento ficou muito mais simples
- Além disso, com essa mudança, os tensores passam a ficar alinhados em limites de 32 bytes, o que pode trazer ganhos adicionais de desempenho em certos processadores
1 comentários
LLaMA - LLM de 65 bilhões de parâmetros divulgado pela Meta
llama.cpp - inferência do modelo LLaMA do Facebook em C/C++ puro