3 pontos por GN⁺ 2023-09-14 | 1 comentários | Compartilhar no WhatsApp
  • Biblioteca de inferência projetada para executar LLMs locais em GPUs como 3090/4090
  • É um lançamento inicial, e o código ainda está em fase de testes, com alguns recursos principais ainda não implementados
  • Em comparação com a V1, o ExLlamaV2 é mais rápido e traz kernels melhores, uma base de código mais limpa e variada, além de suporte a novos formatos de quantização
  • Depende da extensão Torch C++ para funções CUDA, que é compilada em tempo de execução. Na primeira vez que a biblioteca é usada, isso leva de 10 a 20 segundos, mas a extensão fica em cache para usos posteriores
  • Suporta os mesmos modelos GPTQ de 4 bits da V1, mas também oferece suporte ao novo formato "EXL2", que permite misturar níveis de quantização dentro do modelo para atingir uma taxa média de bits entre 2 e 8 bits
  • A escolha dos parâmetros para quantização é feita automaticamente, e são fornecidos scripts para quantizar o modelo
  • Também é mencionado que alguns modelos quantizados em EXL2 foram enviados ao HuggingFace para que os usuários possam experimentar
  • Os planos futuros incluem um pacote PyPi com extensões pré-compiladas, suporte a LoRA, uma Web UI de exemplo, servidor web e mais samplers

1 comentários

 
GN⁺ 2023-09-14
Comentários do Hacker News
  • O artigo discute o Exllamav2, uma nova biblioteca de inferência que permite executar modelos de linguagem (LLMs) em GPUs de consumo.
  • Este pode ser o primeiro momento em que LLMs grandes conseguem rodar em GPUs de consumo com velocidades competitivas, com potencial para superar o GPT-3.5-turbo ou o GPT-4.
  • A biblioteca usa um método único de quantizar diferentes camadas ou módulos para minimizar a perplexidade enquanto ajusta os parâmetros.
  • Há interesse em comparar o desempenho de diferentes GPUs, como a 3090 e a 4090, e em como elas lidam com modelos diferentes.
  • O artigo também menciona a adição de suporte ROCm em estágio inicial, despertando curiosidade sobre como a RTX4090/3090 se comparará à série 7900.
  • Os leitores estão interessados em comparações de velocidade e em como modelos grandes se comportam em hardware avançado, como placas Nvidia topo de linha.
  • Há perguntas sobre o desempenho de modelos que precisam de várias placas para rodar na memória.
  • O artigo também gerou discussão sobre o lançamento no subreddit "Local LLaMA".
  • Os leitores estão curiosos sobre o efeito de reduzir os modelos a uma única largura de bits e se eles ainda funcionam ou passam a produzir bobagens.
  • Há perguntas sobre o custo e os benchmarks de perplexidade do ELX2, além de alguma insatisfação com o fato de o Facebook ter feito o llama v2 com 70B em vez de 65B.
  • Os leitores estão procurando mais informações sobre a quantização EXL2/GPTQ, que parece ser a principal causa do ganho de velocidade nesse modelo.
  • Estão sendo feitas comparações entre o "70B Llama 2" e o ChatGPT 3.5/4.0, com perguntas sobre seu desempenho relativo.