- Biblioteca de inferência projetada para executar LLMs locais em GPUs como 3090/4090
- É um lançamento inicial, e o código ainda está em fase de testes, com alguns recursos principais ainda não implementados
- Em comparação com a V1, o ExLlamaV2 é mais rápido e traz kernels melhores, uma base de código mais limpa e variada, além de suporte a novos formatos de quantização
- Depende da extensão Torch C++ para funções CUDA, que é compilada em tempo de execução. Na primeira vez que a biblioteca é usada, isso leva de 10 a 20 segundos, mas a extensão fica em cache para usos posteriores
- Suporta os mesmos modelos GPTQ de 4 bits da V1, mas também oferece suporte ao novo formato "EXL2", que permite misturar níveis de quantização dentro do modelo para atingir uma taxa média de bits entre 2 e 8 bits
- A escolha dos parâmetros para quantização é feita automaticamente, e são fornecidos scripts para quantizar o modelo
- Também é mencionado que alguns modelos quantizados em EXL2 foram enviados ao HuggingFace para que os usuários possam experimentar
- Os planos futuros incluem um pacote PyPi com extensões pré-compiladas, suporte a LoRA, uma Web UI de exemplo, servidor web e mais samplers
1 comentários
Comentários do Hacker News