- Ferramenta de código aberto que permite pesquisar e gerenciar dados multimodais de forma integrada, como imagens, PDFs e vídeos
- Otimizada para processar documentos técnicos e visuais melhor do que abordagens RAG tradicionais
- Usa embeddings ColPali para tratar a página inteira como uma imagem, oferecendo busca semântica que entende layout, tipografia e contexto visual
- Permite criar um grafo de conhecimento especializado por domínio com ligação de entidades entre vários documentos, com suporte a prompts de sistema personalizados ou pré-treinados
- Pesquisa vários tipos de documentos, como PDF, imagem e vídeo, por meio de uma única API, com suporte a MCP
- O recurso de extração de metadados é rápido e escalável, com suporte a bounding boxes, classificação e mais
- Possibilita integração de fluxo de trabalho com Google Suite, Slack, Confluence e outros
- Também inclui geração baseada em cache KV (Cache-Augmented-Generation) para melhorar a velocidade de geração com base em documentos
- Os recursos básicos são oferecidos como código aberto sob licença MIT, permitindo começar gratuitamente; alguns recursos avançados são pagos e disponibilizados no namespace
ee
Principais conceitos e recursos
-
Busca multimodal (ColPali)
- Trata cada página de PDF como imagem, gerando uma representação multivetorial por página, em vez de por token de texto
- Consegue compreender e pesquisar imagens, PDFs, vídeos e também estruturas visuais como tabelas, diagramas e formatação
- Suporta consultas multimodais integradas por um único endpoint
-
- Permite criar um grafo de conhecimento especializado por domínio com uma única linha de código
- É possível usar prompts pré-configurados ou personalizados
-
Extração de metadados rápida e escalável (Rules Processing)
- Extrai automaticamente bounding boxes, rótulos e informações de classificação dos documentos
- Processa grandes volumes de documentos com rapidez e estabilidade
-
- Suporte a integração direta com Google Workspace, Slack e Confluence
-
- Cria cache KV por documento para aumentar a velocidade de geração
- Útil em ambientes com muitas consultas repetidas
2 comentários
Eu testei isso alguns meses atrás para usar, mas acabou exigindo muito mais recursos de GPU do que eu imaginava e o desempenho também caiu bastante, então é difícil para uma empresa pequena adotar. Mesmo com 2 GPUs A10, a busca levava entre 30 segundos e 1 minuto, aff,,