SlowLlama - Ajustando Llama2-70b e CodeLlama no M1/M2 sem quantização

xguru · 2023-10-09T10:32:01+09:00

Ajuste fino de modelos como o Llama2-70B em Apple M1/M2 e GPUs nVidia de consumo Em vez de usar quantização (quantization), parte do modelo é descarregada para SSD ou memória principal tanto no passo de forward quanto no de backward A versão atual limita as atualizações a um conjunto menor de parâmetros usando LoRA A primeira versão também permitia ajuste fino completo, mas isso foi removido agora

(github.com/okuvshynov)

9 pontos por xguru 2023-10-09 | Ainda não há comentários. | Compartilhar no WhatsApp

Ajuste fino de modelos como o Llama2-70B em Apple M1/M2 e GPUs nVidia de consumo
Em vez de usar quantização (quantization), parte do modelo é descarregada para SSD ou memória principal tanto no passo de forward quanto no de backward
A versão atual limita as atualizações a um conjunto menor de parâmetros usando LoRA
- A primeira versão também permitia ajuste fino completo, mas isso foi removido agora

SlowLlama - Ajustando Llama2-70b e CodeLlama no M1/M2 sem quantização

Leituras relacionadas

Ainda não há comentários.