voyage-multimodal-3: modelo de embedding tudo-em-um para texto, imagens e capturas de tela
(blog.voyageai.com)-
voyage-multimodal-3 é um modelo de ponta capaz de vetorizar características visuais e textuais em documentos com mistura de texto e imagens
- Captura os principais elementos visuais em capturas de tela de PDFs, slides, tabelas e figuras, eliminando a necessidade de parsing complexo de documentos
- Mostra uma melhora média de 19,63% na precisão de busca em 3 tarefas de recuperação multimodal usando 20 conjuntos de dados
-
Comparação com modelos existentes
- voyage-multimodal-3 apresenta desempenho 41,44% e 43,37% superior ao OpenAI CLIP large e ao Cohere multimodal v3, respectivamente, em busca de tabelas/figuras
- Em busca por capturas de tela de documentos, apresenta desempenho 26,54% e 25,84% superior, respectivamente
- Em busca texto-foto, apresenta desempenho 6,55% e 5,86% superior, respectivamente
-
Suporte à mistura de texto e imagem
- Modelos de embedding multimodal existentes processam texto e imagem em redes separadas, mas o voyage-multimodal-3 vetoriza diretamente os dois modos por meio do mesmo encoder transformer
- Isso preserva as relações contextuais entre informações visuais e textuais, permitindo vetorizar texto e imagens misturados, capturas de tela de documentos e PDFs com layouts complexos
-
Busca em modo misto com capturas de tela
- Modelos semelhantes ao CLIP têm queda de desempenho em busca em modo misto devido à lacuna entre modalidades
- O voyage-multimodal-3 mostra o melhor desempenho em todas as proporções de capturas de tela, capturando de fato o conteúdo semântico das imagens
-
Detalhes da avaliação
- O voyage-multimodal-3 foi avaliado em 20 conjuntos de dados multimodais e 34 conjuntos de dados de busca textual
- Para cada tarefa, a avaliação foi feita tomando como referência o modelo com melhor desempenho anterior
-
Resultados
- Em recuperação multimodal, o voyage-multimodal-3 apresenta desempenho superior ao OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M e ColQwen2 v0.1
- Em busca textual padrão, apresenta desempenho 5,13% e 13,70% superior ao OpenAI v3 large e ao Cohere multimodal/English1 v3, respectivamente
-
Guia de uso
- O voyage-multimodal-3 já está disponível, e os primeiros 200 milhões de tokens são oferecidos gratuitamente
- É possível começar com o notebook de exemplo ou consultar a documentação para obter mais informações
1 comentários
Comentários do Hacker News