8 pontos por xguru 2023-03-10 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Uma versão fork que permite rodar o LLaMA-13B da Meta com apenas 24 GiB de RAM
    • Ou seja, é possível operá-lo com apenas uma RTX4090/3090
  • Em teoria, é possível rodar o LLaMA-65B com uma única A100 de 80 GB
  • Mudanças
    • Remoção das estruturas de processamento paralelo
    • Quantização dos weights na máquina host
    • Carregamento gradual dos weights para evitar problemas de memória
    • Uso de bitsandbytes e tqdm
    • Configuração de penalidade de repetição (padrão: 1.15)
  • Em uma máquina Ubuntu com RTX4090 + 64 GB, leva cerca de 25 segundos para carregar e quantizar o modelo

Ainda não há comentários.

Ainda não há comentários.