- Fornece uma API de streaming compatível com a OpenAI para modelos de geração de texto baseados em Hugging Face Transformer
- Permite usar outros LLMs como se fosse o serviço da OpenAI
- Permite geração em streaming com várias estratégias de decodificação
- Suporta tanto modelos apenas decodificadores quanto modelos codificador-decodificador
- Detokenizer com suporte a surrogates e whitespace
- Opção de quantization. Suporte a múltiplas GPUs
- Exibição de progresso em tempo real usando SSE (Server-Sent Events)
Ainda não há comentários.