SlowLlama - Ajustando Llama2-70b e CodeLlama no M1/M2 sem quantização
(github.com/okuvshynov)- Ajuste fino de modelos como o Llama2-70B em Apple M1/M2 e GPUs nVidia de consumo
- Em vez de usar quantização (
quantization), parte do modelo é descarregada para SSD ou memória principal tanto no passo de forward quanto no de backward - A versão atual limita as atualizações a um conjunto menor de parâmetros usando LoRA
- A primeira versão também permitia ajuste fino completo, mas isso foi removido agora
Ainda não há comentários.