- Biblioteca open source para inferência e serviço de LLM rápidos
- Gerencia com eficiência chaves/valores de atenção com o algoritmo PagedAttention
- Até 24 vezes mais throughput que o HuggingFace Transformers sem mudanças na arquitetura do modelo
- Permite armazenar chaves/valores contínuos em espaços de memória não contíguos
- Já é usado com sucesso no LMSYS Vicuna e no Chatbot Arena
Ainda não há comentários.