- Uma versão fork que permite rodar o LLaMA-13B da Meta com apenas 24 GiB de RAM
- Ou seja, é possível operá-lo com apenas uma RTX4090/3090
- Em teoria, é possível rodar o LLaMA-65B com uma única A100 de 80 GB
- Mudanças
- Remoção das estruturas de processamento paralelo
- Quantização dos weights na máquina host
- Carregamento gradual dos weights para evitar problemas de memória
- Uso de
bitsandbytes e tqdm
- Configuração de penalidade de repetição (padrão: 1.15)
- Em uma máquina Ubuntu com RTX4090 + 64 GB, leva cerca de 25 segundos para carregar e quantizar o modelo
Ainda não há comentários.