8 pontos por xguru 2023-06-23 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Biblioteca open source para inferência e serviço de LLM rápidos
  • Gerencia com eficiência chaves/valores de atenção com o algoritmo PagedAttention
    • Até 24 vezes mais throughput que o HuggingFace Transformers sem mudanças na arquitetura do modelo
    • Permite armazenar chaves/valores contínuos em espaços de memória não contíguos
  • Já é usado com sucesso no LMSYS Vicuna e no Chatbot Arena

Ainda não há comentários.

Ainda não há comentários.