RAG para artigos em PDF: só texto é suficiente? - experimento de busca por embeddings com Gemini embedding 002
(brunch.co.kr/@230kimi)Resumo dos resultados de um experimento comparando embeddings de texto e de imagem em PDFs de artigos acadêmicos com o Gemini embedding-2-preview (embedding multimodal nativo).
∙ A similaridade cosseno média entre texto↔imagem da mesma página foi 0,642. Cerca de 36% das informações visuais, como fotos de SEM, curvas de gráficos e disposição espacial, não foram refletidas no embedding de texto
∙ Em buscas com 18 consultas de texto, o índice de imagem (MRR 0,719) superou o índice de texto (0,631). Como termos-chave se repetem em várias páginas nesse tipo de artigo, as imagens acabaram tendo maior poder de distinção entre páginas
∙ O embedding Multi, combinando texto+imagem (MRR 0,650), ficou abaixo do uso apenas de imagem. Houve um efeito de diluição das características das duas modalidades
∙ A busca cross-modal dentro do mesmo documento (texto→imagem) falhou, com Hit@5 de 0%, porque a similaridade textual entre páginas era maior do que a similaridade texto↔imagem dentro da mesma página
Em documentos com muitas figuras, a indexação por imagem é vantajosa, e a conclusão é que vale repensar o padrão de RAG de “extrair texto primeiro e depois vetorizar”.
1 comentários
Como ele se compara ao ColPali?