- Permite usar diversos LLMs por meio de uma API REST compatível com OpenAI
- Funciona mesmo sem GPU. Em LLMs compatíveis com
llama.cpp, há suporte a aceleração por GPU
- Suporta múltiplos modelos, além de transcrição de áudio, geração de texto e geração de imagens (Stable Diffusion)
- Depois de carregado uma vez, mantém o modelo na memória para oferecer inferência rápida
- Suporta todos os modelos compatíveis com ggml: llama, gpt4all, rwkv, whisper, vicuna, koala, gpt4all-j, cerebras, falcon, dolly, starcoder,..
Ainda não há comentários.