5 pontos por 230kimi 2026-03-31 | 1 comentários | Compartilhar no WhatsApp

Resumo dos resultados de um experimento comparando embeddings de texto e de imagem em PDFs de artigos acadêmicos com o Gemini embedding-2-preview (embedding multimodal nativo).

∙	A similaridade cosseno média entre texto↔imagem da mesma página foi 0,642. Cerca de 36% das informações visuais, como fotos de SEM, curvas de gráficos e disposição espacial, não foram refletidas no embedding de texto  
∙	Em buscas com 18 consultas de texto, o índice de imagem (MRR 0,719) superou o índice de texto (0,631). Como termos-chave se repetem em várias páginas nesse tipo de artigo, as imagens acabaram tendo maior poder de distinção entre páginas  
∙	O embedding Multi, combinando texto+imagem (MRR 0,650), ficou abaixo do uso apenas de imagem. Houve um efeito de diluição das características das duas modalidades  
∙	A busca cross-modal dentro do mesmo documento (texto→imagem) falhou, com Hit@5 de 0%, porque a similaridade textual entre páginas era maior do que a similaridade texto↔imagem dentro da mesma página  

Em documentos com muitas figuras, a indexação por imagem é vantajosa, e a conclusão é que vale repensar o padrão de RAG de “extrair texto primeiro e depois vetorizar”.

1 comentários

 
mammal 29 일 전

Como ele se compara ao ColPali?