- Graças ao LLaMA.cpp, que reescreveu o código de inferência do LLaMA em C++ puro, ele pode rodar em diversos tipos de hardware, como Pixel 5, MacBook Pro com M2 e Raspberry Pi
- Modelos grandes normalmente exigem GPUs caras, então como isso é possível?
- GPUs são vantajosas para deep learning por causa de sua grande largura de banda de memória e capacidade de computação, mas a largura de banda de memória frequentemente se torna o gargalo da inferência
- Isso acontece porque, para o cálculo real, os dados precisam ser movidos da memória HBM (RAM) para a memória on-chip
- A quantization (quantização) é importante no uso de RAM para os pesos do LLaMA
- Ao reduzir a precisão, é possível diminuir drasticamente a quantidade de memória necessária para armazenar o modelo
- Com a quantização, reduz-se a quantidade de memória necessária para armazenar o modelo, permitindo que ele caiba na memória de GPUs padrão de datacenter e GPUs de consumo de ponta
- A largura de banda de memória é o fator limitante em quase todas as tarefas relacionadas ao sampling de transformers
- Ao reduzir os requisitos de memória com métodos como a quantização, torna-se muito mais fácil fazer o serving
- Este também é mais um motivo para usar distillation ou "treinar modelos menores por mais tempo"
3 comentários
Na minha máquina local, carreguei o llama2 com o LlamaCpp e fiz um teste de embeddings.
https://breezymind.com/llamacpp-embedding
O primeiro comentário no HN é útil
Comentários do Hacker News