4 pontos por GN⁺ 2024-11-18 | 1 comentários | Compartilhar no WhatsApp
  • voyage-multimodal-3 é um modelo de ponta capaz de vetorizar características visuais e textuais em documentos com mistura de texto e imagens

    • Captura os principais elementos visuais em capturas de tela de PDFs, slides, tabelas e figuras, eliminando a necessidade de parsing complexo de documentos
    • Mostra uma melhora média de 19,63% na precisão de busca em 3 tarefas de recuperação multimodal usando 20 conjuntos de dados
  • Comparação com modelos existentes

    • voyage-multimodal-3 apresenta desempenho 41,44% e 43,37% superior ao OpenAI CLIP large e ao Cohere multimodal v3, respectivamente, em busca de tabelas/figuras
    • Em busca por capturas de tela de documentos, apresenta desempenho 26,54% e 25,84% superior, respectivamente
    • Em busca texto-foto, apresenta desempenho 6,55% e 5,86% superior, respectivamente
  • Suporte à mistura de texto e imagem

    • Modelos de embedding multimodal existentes processam texto e imagem em redes separadas, mas o voyage-multimodal-3 vetoriza diretamente os dois modos por meio do mesmo encoder transformer
    • Isso preserva as relações contextuais entre informações visuais e textuais, permitindo vetorizar texto e imagens misturados, capturas de tela de documentos e PDFs com layouts complexos
  • Busca em modo misto com capturas de tela

    • Modelos semelhantes ao CLIP têm queda de desempenho em busca em modo misto devido à lacuna entre modalidades
    • O voyage-multimodal-3 mostra o melhor desempenho em todas as proporções de capturas de tela, capturando de fato o conteúdo semântico das imagens
  • Detalhes da avaliação

    • O voyage-multimodal-3 foi avaliado em 20 conjuntos de dados multimodais e 34 conjuntos de dados de busca textual
    • Para cada tarefa, a avaliação foi feita tomando como referência o modelo com melhor desempenho anterior
  • Resultados

    • Em recuperação multimodal, o voyage-multimodal-3 apresenta desempenho superior ao OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M e ColQwen2 v0.1
    • Em busca textual padrão, apresenta desempenho 5,13% e 13,70% superior ao OpenAI v3 large e ao Cohere multimodal/English1 v3, respectivamente
  • Guia de uso

    • O voyage-multimodal-3 já está disponível, e os primeiros 200 milhões de tokens são oferecidos gratuitamente
    • É possível começar com o notebook de exemplo ou consultar a documentação para obter mais informações

1 comentários

 
GN⁺ 2024-11-18
Comentários do Hacker News
  • O modelo CLIP apresenta queda de desempenho em busca com modalidades mistas. Isso acontece por causa do gap entre modalidades, o que faz com que vetores de texto apareçam mais próximos de textos não relacionados
    • O Gemini, do Google, foi projetado desde o início para ser multimodal, melhorando esse problema. Ele foi pré-treinado com várias modalidades, podendo entender e raciocinar de forma eficaz sobre todos os tipos de entrada
  • O projeto ColiVara implementa um modelo multimodal usando ColPali. Gostaria de comparar o desempenho do VoyageAI no leaderboard do Vidore
  • É uma pena que modelos comerciais sejam oferecidos apenas via API
  • É preciso ter uma visão crítica sobre modelos disponíveis apenas por API. Em especial, é necessária uma avaliação para textos que não sejam em inglês
  • É importante realizar análises qualitativas usando datasets reais. Benchmarks quantitativos são úteis, mas raramente usados
  • Esta é uma forma interessante de analisar embeddings multimodais. O desempenho é avaliado pela proporção com que a entrada transita de uma modalidade para outra
  • O mecanismo da Voyage, na API tradicional em Python, tokeniza blocos de texto e produz strings de caracteres. Este modelo faz isso por meio da vetorização de imagens
    • Palavras como 'you' e 'apple' são tratadas como um único token, enquanto termos mais complexos como 'pikachu' podem ser divididos em 'pik-a-chu'
  • No Colab, valores de produto escalar de 0,428 e 0,498 são descritos como "valores de similaridade bastante altos". Há dúvidas sobre a possibilidade de projetar um sistema que rotule dados com confiança usando um limiar de 0,4