20 pontos por xguru 2025-05-29 | 2 comentários | Compartilhar no WhatsApp
  • Ferramenta de código aberto que permite pesquisar e gerenciar dados multimodais de forma integrada, como imagens, PDFs e vídeos
    • Otimizada para processar documentos técnicos e visuais melhor do que abordagens RAG tradicionais
  • Usa embeddings ColPali para tratar a página inteira como uma imagem, oferecendo busca semântica que entende layout, tipografia e contexto visual
  • Permite criar um grafo de conhecimento especializado por domínio com ligação de entidades entre vários documentos, com suporte a prompts de sistema personalizados ou pré-treinados
  • Pesquisa vários tipos de documentos, como PDF, imagem e vídeo, por meio de uma única API, com suporte a MCP
  • O recurso de extração de metadados é rápido e escalável, com suporte a bounding boxes, classificação e mais
  • Possibilita integração de fluxo de trabalho com Google Suite, Slack, Confluence e outros
  • Também inclui geração baseada em cache KV (Cache-Augmented-Generation) para melhorar a velocidade de geração com base em documentos
  • Os recursos básicos são oferecidos como código aberto sob licença MIT, permitindo começar gratuitamente; alguns recursos avançados são pagos e disponibilizados no namespace ee

Principais conceitos e recursos

  • Busca multimodal (ColPali)

    • Trata cada página de PDF como imagem, gerando uma representação multivetorial por página, em vez de por token de texto
    • Consegue compreender e pesquisar imagens, PDFs, vídeos e também estruturas visuais como tabelas, diagramas e formatação
    • Suporta consultas multimodais integradas por um único endpoint
  • Grafo de conhecimento (Knowledge Graphs)

    • Permite criar um grafo de conhecimento especializado por domínio com uma única linha de código
    • É possível usar prompts pré-configurados ou personalizados
  • Extração de metadados rápida e escalável (Rules Processing)

    • Extrai automaticamente bounding boxes, rótulos e informações de classificação dos documentos
    • Processa grandes volumes de documentos com rapidez e estabilidade
  • Várias integrações (Integrations)

    • Suporte a integração direta com Google Workspace, Slack e Confluence
  • Geração baseada em cache (Cache-Augmented-Generation)

    • Cria cache KV por documento para aumentar a velocidade de geração
    • Útil em ambientes com muitas consultas repetidas

2 comentários

 
blizard4479 2025-05-29

Eu testei isso alguns meses atrás para usar, mas acabou exigindo muito mais recursos de GPU do que eu imaginava e o desempenho também caiu bastante, então é difícil para uma empresa pequena adotar. Mesmo com 2 GPUs A10, a busca levava entre 30 segundos e 1 minuto, aff,,

 
[Este comentário foi ocultado.]