VectorDB - o banco de dados vetorial desenvolvido pela Kagi Search

(vectordb.com)

14 pontos por GN⁺ 2023-11-27 | 1 comentários | Compartilhar no WhatsApp

VectorDB é um pacote Python para armazenamento e busca de texto, usando técnicas de chunking, embeddings e busca vetorial
Oferece uma interface amigável e é adequado para armazenar, buscar e gerenciar dados de texto associados a metadados
Foi projetado para casos de uso em que baixa latência é essencial

Instalação e como usar

VectorDB é open source, e o código e a documentação completa podem ser consultados no GitHub.
Pode ser instalado com o comando pip install vectordb2.
O uso consiste em criar um objeto de memória, armazenar texto e metadados e depois buscar os chunks relacionados.

Importância da busca vetorial e dos embeddings

Ao lidar com grandes modelos de linguagem, busca vetorial e embeddings permitem recuperação de informação eficiente e precisa.
Ao converter texto em vetores de alta dimensão, eles dão suporte a comparação e busca rápidas, além de capturar significado semântico para melhorar a qualidade dos resultados.

Exemplo

Usando o objeto Memory, define-se uma estratégia de chunking e armazenam-se texto e metadados sobre machine learning e inteligência artificial.
Para uma consulta específica, os n chunks mais relevantes são buscados e os resultados são exibidos.

Opinião do GN⁺

O ponto mais importante deste texto é que o VectorDB é um pacote Python capaz de armazenar e buscar dados de texto com eficiência. Usando técnicas de busca vetorial e embeddings, ele pode recuperar informações com rapidez e precisão em grandes conjuntos de dados, o que sugere aplicações em diversas áreas, como tomada de decisão orientada por dados e processamento de linguagem natural. Essa tecnologia tende a se tornar ainda mais importante na sociedade moderna, em que o volume de dados continua crescendo, e por isso é um tema interessante para quem se interessa por engenharia de software, ciência de dados e inteligência artificial.

1 comentários

GN⁺ 2023-11-27

Opiniões no Hacker News

Opinião do desenvolvedor:
- Este produto não é um banco de dados de verdade, mas sim um wrapper baseado em embeddings executados localmente e em FAISS/mrpt.
- Ele oferece padrões sensatos com base em muito benchmarking para minimizar a latência.
- Foi compartilhado um notebook de exemplo no Colab que filtra o conteúdo do feed RSS do Kagi Small Web conforme os interesses do usuário.
Opinião sobre o FAISS:
- FAISS é uma biblioteca de busca vetorial que oferece uma API simples.
- Se você não precisa de bibliotecas pesadas como PyTorch, Tensorflow e Transformers, exigidas pelo VectorDB, o FAISS pode ser mais adequado.
Opinião sobre a integração com Postgres:
- Equipes que já usam o Postgres como armazenamento operacional devem usar a extensão PGVector.
- Como os dados e a busca vetorial ficam juntos, há menos partes da stack técnica para gerenciar.
Feedback positivo sobre a busca da Kagi:
- Depois de usar a busca da Kagi por alguns meses, a impressão foi surpreendente.
- Se essa tecnologia é o motor da busca da Kagi, isso é animador.
Pergunta sobre armazenamento de dados e limitações:
- Há curiosidade sobre onde os dados são armazenados e como são persistidos.
- Também foi perguntado quais são as limitações dessa tecnologia e se ela funciona bem com textos de 500 a 1000 palavras e com coleções de texto que não sejam compostas por frases.
Curiosidade sobre o uso da linguagem Crystal:
- Houve curiosidade sobre por que a linguagem Crystal não foi usada.
Pergunta sobre comparação entre bancos de dados vetoriais:
- Há uma pergunta sobre a existência de material comparando vários vector DBs, qual escolher dependendo do caso de uso e em que eles diferem.
Interesse no framework "mínimo possível":
- Foi considerado interessante eliminar a dependência de HF Transformers e personalizar o chunking.
- Não se trata de uma crítica a este projeto, mas de identificar partes que poderiam ser úteis.
Pergunta sobre geração de embeddings:
- Há uma pergunta sobre o que está sendo usado, na prática, para gerar os embeddings.
Compartilhamento de link de blog sobre bancos de dados vetoriais:
- Foi compartilhado um link de blog afirmando que não é necessário usar um banco de dados vetorial.