LLaMA: edição INT8

xguru · 2023-03-10T11:02:01+09:00

Uma versão fork que permite rodar o LLaMA-13B da Meta com apenas 24 GiB de RAM Ou seja, é possível operá-lo com apenas uma RTX4090/3090 Em teoria, é possível rodar o LLaMA-65B com uma única A100 de 80 GB Mudanças Remoção das estruturas de processamento paralelo Quantização dos weights na máquina host Carregamento gradual dos weights para evitar problemas de memória Uso de bitsandbytes e tqdm Configuração de penalidade de repetição (padrão: 1.15) Em uma máquina Ubuntu com RTX4090 + 64 GB, leva cerca de 25 segundos para carregar e quantizar o modelo

(github.com/tloen)

8 pontos por xguru 2023-03-10 | Ainda não há comentários. | Compartilhar no WhatsApp

Uma versão fork que permite rodar o LLaMA-13B da Meta com apenas 24 GiB de RAM
- Ou seja, é possível operá-lo com apenas uma RTX4090/3090
Em teoria, é possível rodar o LLaMA-65B com uma única A100 de 80 GB
Mudanças
- Remoção das estruturas de processamento paralelo
- Quantização dos weights na máquina host
- Carregamento gradual dos weights para evitar problemas de memória
- Uso de bitsandbytes e tqdm
- Configuração de penalidade de repetição (padrão: 1.15)
Em uma máquina Ubuntu com RTX4090 + 64 GB, leva cerca de 25 segundos para carregar e quantizar o modelo

LLaMA: edição INT8

Leituras relacionadas

Ainda não há comentários.