vLLM: serviço de LLM fácil, rápido e barato com PagedAttention

xguru · 2023-06-23T10:32:02+09:00

Biblioteca open source para inferência e serviço de LLM rápidos Gerencia com eficiência chaves/valores de atenção com o algoritmo PagedAttention Até 24 vezes mais throughput que o HuggingFace Transformers sem mudanças na arquitetura do modelo Permite armazenar chaves/valores contínuos em espaços de memória não contíguos Já é usado com sucesso no LMSYS Vicuna e no Chatbot Arena

(vllm.ai)

8 pontos por xguru 2023-06-23 | Ainda não há comentários. | Compartilhar no WhatsApp

Biblioteca open source para inferência e serviço de LLM rápidos
Gerencia com eficiência chaves/valores de atenção com o algoritmo PagedAttention
- Até 24 vezes mais throughput que o HuggingFace Transformers sem mudanças na arquitetura do modelo
- Permite armazenar chaves/valores contínuos em espaços de memória não contíguos
Já é usado com sucesso no LMSYS Vicuna e no Chatbot Arena

vLLM: serviço de LLM fácil, rápido e barato com PagedAttention

Leituras relacionadas

Ainda não há comentários.