19 pontos por davespark 2026-01-11 | 1 comentários | Compartilhar no WhatsApp

Em 2026, você ainda pensa que "busca semântica = embeddings + banco de dados vetorial"?

Argumento central

Na busca semântica, não importa apenas a similaridade (similarity),
mas sim satisfazer bem estes três pontos: ① representação (representation) + ② similaridade (similarity) + ③ critério de correspondência (match criteria). Só então a busca é realmente boa.

A crítica é que a busca vetorial baseada em embeddings vai bem em ① e ②, mas é muito fraca em ③ (incluir/excluir resultados exatamente dentro do escopo que o usuário deseja).

Exemplo principal:
Consulta: "fruta redonda e vermelha que cresce em árvore"
Resultados de um bom sistema de embeddings (frequentemente no topo):

  1. maçã
  2. laranja
  3. ⚾️ bola de beisebol

→ O usuário definitivamente não quer uma bola de beisebol, mas o embedding a inclui porque ela é relativamente próxima em "redonda e vermelha"
Não dá para resolver isso com um limiar, porque varia conforme o domínio e a consulta

A alternativa proposta: taxonomias hierárquicas bem gerenciadas (Managed Taxonomies)

Como no exemplo de móveis da Wayfair:

Baby & Kids  
└─ Toddler & Kids Playroom  
   └─ Indoor Play  
      └─ Rocking Horses  
         └─ Novelty Rocking Horses  

Se isso for colocado sobre o BM25 com um tokenizador hierárquico:

  • categoria mais específica (filha) = df menor → a pontuação do BM25 automaticamente fica mais alta
  • é possível ajustar com precisão o escopo em uma linguagem que o usuário entende (subindo para pai/avô, o escopo vai ficando mais amplo)
  • se a classificação for automatizada com LLM, a carga de manutenção também cai bastante

Conclusão:
Embeddings são poderosos, mas não são obrigatórios.
Só com capacidade já madura de categorização/classificação no domínio + apoio de LLM
já seria possível criar uma busca semântica muito mais precisa e com experiência de usuário melhor do que com embeddings, segundo o argumento.

Recomendado especialmente para quem trabalha com busca especializada por domínio, como comércio eletrônico, saúde, jurídico e bibliotecas.

1 comentários

 
kaydash 2026-01-12

Parece que busca híbrida e RAG com múltiplas consultas são necessários.