14 pontos por GN⁺ 2026-03-11 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O primeiro modelo de embeddings totalmente multimodal a mapear texto, imagens, vídeos, áudio e documentos em um único espaço de embeddings foi lançado em preview público
  • Baseado na arquitetura Gemini, ele captura a intenção semântica em mais de 100 idiomas e oferece suporte a diversas tarefas downstream, como RAG, busca semântica, análise de sentimento e clustering de dados
  • Com a técnica Matryoshka Representation Learning (MRL), pode ser reduzido com flexibilidade a partir da dimensão padrão de 3072, permitindo equilibrar desempenho e custo de armazenamento
  • Estabelece um novo padrão de desempenho ao superar modelos líderes anteriores em tarefas de texto, imagem e vídeo, além de introduzir novas capacidades de embeddings de fala
  • Disponível imediatamente via Gemini API e Vertex AI, com suporte de integração com frameworks de terceiros como LangChain, LlamaIndex e Weaviate

Novas modalidades e dimensões de saída flexíveis

  • Com base no Gemini, aproveita as capacidades de compreensão multimodal para gerar embeddings de alta qualidade para diversos tipos de entrada
    • Texto: suporte a contexto amplo com até 8192 tokens de entrada
    • Imagem: processa até 6 imagens por requisição, com suporte aos formatos PNG e JPEG
    • Vídeo: suporte a entrada de vídeo de até 120 segundos nos formatos MP4 e MOV
    • Áudio: gera embeddings de dados de áudio nativamente, sem conversão intermediária para texto
    • Documentos: faz embeddings diretamente de PDFs com até 6 páginas
  • Além de uma única modalidade, também permite enviar entradas intercaladas (ex.: imagem + texto) em uma única requisição, capturando até relações complexas e sutis entre diferentes tipos de mídia
  • Com a técnica Matryoshka Representation Learning (MRL), as informações são aninhadas hierarquicamente, permitindo reduzir a dimensionalidade de forma dinâmica
    • Escala para baixo com flexibilidade a partir da dimensão padrão de 3072 para 1536, 768 etc.
    • Para a melhor qualidade, é recomendado usar dimensões de 3072, 1536 ou 768

Desempenho de ponta

  • Mais do que uma simples melhoria em relação a modelos legados, estabelece um novo padrão de desempenho em profundidade multimodal
  • Supera modelos líderes anteriores em tarefas de texto, imagem e vídeo, além de introduzir fortes capacidades de embeddings de fala
  • Oferece ganhos de desempenho mensuráveis e cobertura multimodal exclusiva para atender a diferentes necessidades de embeddings

Extraindo significados mais profundos dos dados — casos de parceiros com acesso antecipado

  • A tecnologia de embeddings é um componente central por trás de experiências em muitos produtos do Google, sendo usada desde a engenharia de contexto em RAG até gestão de dados em larga escala, busca e análise
  • Everlaw (Max Christoff, CTO): adotou embeddings Gemini para ajudar profissionais jurídicos a encontrar informações-chave no processo de discovery em litígios, melhorando precisão e recall em milhões de registros e aproveitando novos recursos poderosos de busca para imagens e vídeos
  • Sparkonomy (Guneet Singh, cofundador): usa como base do Creator Economic Equality Engine; com a multimodalidade nativa, obteve redução de latência de até 70%, quase dobrou a pontuação de similaridade semântica em pares texto-imagem e texto-vídeo de 0,4 para 0,8, e indexou milhões de minutos de vídeo com uma precisão sem precedentes
  • Mindlid (Ertuğrul Çavuşoğlu, cofundador): destacou a excelente continuidade da API, aplicável imediatamente com mudanças mínimas nos fluxos existentes; está testando uma forma de embutir memória conversacional baseada em texto junto com embeddings de áudio e visuais, e confirmou melhora de 20% no recall top-1 em seu app de bem-estar pessoal

Primeiros passos

  • O modelo Gemini Embedding 2 está disponível via Gemini API ou Vertex AI
  • São fornecidos exemplos de código em Python para gerar embeddings de texto, imagem e áudio em uma única chamada
  • notebooks interativos no Colab para Gemini API e Vertex AI
  • Suporte de integração com as principais ferramentas de terceiros, como LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB e Vector Search

Ainda não há comentários.

Ainda não há comentários.