- Armazena em cache as respostas do LLM para reduzir os custos de LLM da organização e acelerar a velocidade das respostas
- Aumenta a taxa de acerto do cache encontrando consultas semelhantes ou relacionadas por meio de uma estratégia de cache semântico
- Converte consultas em embeddings por meio de um algoritmo de embedding e realiza busca por similaridade desses embeddings usando um vector store
- Adaptador de LLM: suporte a OpenAI ChatGPT e LangChain (Bard/Anthropic/LLaMA também devem ser suportados no futuro)
- Adaptador multimodal: OpenAI Image Create, OpenAI Audio Transribe, HuggingFace Stable Diffusion
- Gerador de embeddings: OpenAI, ONNX, HuggingFace, Cohere, fastText, SentenceTransformers
- Armazenamento de cache: SQLite, PostgreSQL, MySQL, SQLServer,..
- Vector store: Mulvus, Zilliz Cloud, FAISS, Hnswlib
- Gerenciador de cache: LRU, FIFO
Ainda não há comentários.