ExLlamaV2: biblioteca de inferência rápida para executar LLMs locais em GPUs comuns

(github.com/turboderp)

3 pontos por GN⁺ 2023-09-14 | 1 comentários | Compartilhar no WhatsApp

Biblioteca de inferência projetada para executar LLMs locais em GPUs como 3090/4090
É um lançamento inicial, e o código ainda está em fase de testes, com alguns recursos principais ainda não implementados
Em comparação com a V1, o ExLlamaV2 é mais rápido e traz kernels melhores, uma base de código mais limpa e variada, além de suporte a novos formatos de quantização
Depende da extensão Torch C++ para funções CUDA, que é compilada em tempo de execução. Na primeira vez que a biblioteca é usada, isso leva de 10 a 20 segundos, mas a extensão fica em cache para usos posteriores
Suporta os mesmos modelos GPTQ de 4 bits da V1, mas também oferece suporte ao novo formato "EXL2", que permite misturar níveis de quantização dentro do modelo para atingir uma taxa média de bits entre 2 e 8 bits
A escolha dos parâmetros para quantização é feita automaticamente, e são fornecidos scripts para quantizar o modelo
Também é mencionado que alguns modelos quantizados em EXL2 foram enviados ao HuggingFace para que os usuários possam experimentar
Os planos futuros incluem um pacote PyPi com extensões pré-compiladas, suporte a LoRA, uma Web UI de exemplo, servidor web e mais samplers

1 comentários

GN⁺ 2023-09-14

Comentários do Hacker News

O artigo discute o Exllamav2, uma nova biblioteca de inferência que permite executar modelos de linguagem (LLMs) em GPUs de consumo.
Este pode ser o primeiro momento em que LLMs grandes conseguem rodar em GPUs de consumo com velocidades competitivas, com potencial para superar o GPT-3.5-turbo ou o GPT-4.
A biblioteca usa um método único de quantizar diferentes camadas ou módulos para minimizar a perplexidade enquanto ajusta os parâmetros.
Há interesse em comparar o desempenho de diferentes GPUs, como a 3090 e a 4090, e em como elas lidam com modelos diferentes.
O artigo também menciona a adição de suporte ROCm em estágio inicial, despertando curiosidade sobre como a RTX4090/3090 se comparará à série 7900.
Os leitores estão interessados em comparações de velocidade e em como modelos grandes se comportam em hardware avançado, como placas Nvidia topo de linha.
Há perguntas sobre o desempenho de modelos que precisam de várias placas para rodar na memória.
O artigo também gerou discussão sobre o lançamento no subreddit "Local LLaMA".
Os leitores estão curiosos sobre o efeito de reduzir os modelos a uma única largura de bits e se eles ainda funcionam ou passam a produzir bobagens.
Há perguntas sobre o custo e os benchmarks de perplexidade do ELX2, além de alguma insatisfação com o fato de o Facebook ter feito o llama v2 com 70B em vez de 65B.
Os leitores estão procurando mais informações sobre a quantização EXL2/GPTQ, que parece ser a principal causa do ganho de velocidade nesse modelo.
Estão sendo feitas comparações entre o "70B Llama 2" e o ChatGPT 3.5/4.0, com perguntas sobre seu desempenho relativo.

ExLlamaV2: biblioteca de inferência rápida para executar LLMs locais em GPUs comuns

Leituras relacionadas

1 comentários

Comentários do Hacker News