- O primeiro modelo de embeddings totalmente multimodal a mapear texto, imagens, vídeos, áudio e documentos em um único espaço de embeddings foi lançado em preview público
- Baseado na arquitetura Gemini, ele captura a intenção semântica em mais de 100 idiomas e oferece suporte a diversas tarefas downstream, como RAG, busca semântica, análise de sentimento e clustering de dados
- Com a técnica Matryoshka Representation Learning (MRL), pode ser reduzido com flexibilidade a partir da dimensão padrão de 3072, permitindo equilibrar desempenho e custo de armazenamento
- Estabelece um novo padrão de desempenho ao superar modelos líderes anteriores em tarefas de texto, imagem e vídeo, além de introduzir novas capacidades de embeddings de fala
- Disponível imediatamente via Gemini API e Vertex AI, com suporte de integração com frameworks de terceiros como LangChain, LlamaIndex e Weaviate
Novas modalidades e dimensões de saída flexíveis
- Com base no Gemini, aproveita as capacidades de compreensão multimodal para gerar embeddings de alta qualidade para diversos tipos de entrada
- Texto: suporte a contexto amplo com até 8192 tokens de entrada
- Imagem: processa até 6 imagens por requisição, com suporte aos formatos PNG e JPEG
- Vídeo: suporte a entrada de vídeo de até 120 segundos nos formatos MP4 e MOV
- Áudio: gera embeddings de dados de áudio nativamente, sem conversão intermediária para texto
- Documentos: faz embeddings diretamente de PDFs com até 6 páginas
- Além de uma única modalidade, também permite enviar entradas intercaladas (ex.: imagem + texto) em uma única requisição, capturando até relações complexas e sutis entre diferentes tipos de mídia
- Com a técnica Matryoshka Representation Learning (MRL), as informações são aninhadas hierarquicamente, permitindo reduzir a dimensionalidade de forma dinâmica
- Escala para baixo com flexibilidade a partir da dimensão padrão de 3072 para 1536, 768 etc.
- Para a melhor qualidade, é recomendado usar dimensões de 3072, 1536 ou 768
Desempenho de ponta
- Mais do que uma simples melhoria em relação a modelos legados, estabelece um novo padrão de desempenho em profundidade multimodal
- Supera modelos líderes anteriores em tarefas de texto, imagem e vídeo, além de introduzir fortes capacidades de embeddings de fala
- Oferece ganhos de desempenho mensuráveis e cobertura multimodal exclusiva para atender a diferentes necessidades de embeddings
Extraindo significados mais profundos dos dados — casos de parceiros com acesso antecipado
- A tecnologia de embeddings é um componente central por trás de experiências em muitos produtos do Google, sendo usada desde a engenharia de contexto em RAG até gestão de dados em larga escala, busca e análise
- Everlaw (Max Christoff, CTO): adotou embeddings Gemini para ajudar profissionais jurídicos a encontrar informações-chave no processo de discovery em litígios, melhorando precisão e recall em milhões de registros e aproveitando novos recursos poderosos de busca para imagens e vídeos
- Sparkonomy (Guneet Singh, cofundador): usa como base do Creator Economic Equality Engine; com a multimodalidade nativa, obteve redução de latência de até 70%, quase dobrou a pontuação de similaridade semântica em pares texto-imagem e texto-vídeo de 0,4 para 0,8, e indexou milhões de minutos de vídeo com uma precisão sem precedentes
- Mindlid (Ertuğrul Çavuşoğlu, cofundador): destacou a excelente continuidade da API, aplicável imediatamente com mudanças mínimas nos fluxos existentes; está testando uma forma de embutir memória conversacional baseada em texto junto com embeddings de áudio e visuais, e confirmou melhora de 20% no recall top-1 em seu app de bem-estar pessoal
Primeiros passos
- O modelo Gemini Embedding 2 está disponível via Gemini API ou Vertex AI
- São fornecidos exemplos de código em Python para gerar embeddings de texto, imagem e áudio em uma única chamada
- Há notebooks interativos no Colab para Gemini API e Vertex AI
- Suporte de integração com as principais ferramentas de terceiros, como LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB e Vector Search
Ainda não há comentários.