Busca semântica sem embeddings (Semantic Search Without Embeddings)
(softwaredoug.com)Em 2026, você ainda pensa que "busca semântica = embeddings + banco de dados vetorial"?
Argumento central
Na busca semântica, não importa apenas a similaridade (similarity),
mas sim satisfazer bem estes três pontos: ① representação (representation) + ② similaridade (similarity) + ③ critério de correspondência (match criteria). Só então a busca é realmente boa.
A crítica é que a busca vetorial baseada em embeddings vai bem em ① e ②, mas é muito fraca em ③ (incluir/excluir resultados exatamente dentro do escopo que o usuário deseja).
Exemplo principal:
Consulta: "fruta redonda e vermelha que cresce em árvore"
Resultados de um bom sistema de embeddings (frequentemente no topo):
- maçã
- laranja
- ⚾️ bola de beisebol
→ O usuário definitivamente não quer uma bola de beisebol, mas o embedding a inclui porque ela é relativamente próxima em "redonda e vermelha"
Não dá para resolver isso com um limiar, porque varia conforme o domínio e a consulta
A alternativa proposta: taxonomias hierárquicas bem gerenciadas (Managed Taxonomies)
Como no exemplo de móveis da Wayfair:
Baby & Kids
└─ Toddler & Kids Playroom
└─ Indoor Play
└─ Rocking Horses
└─ Novelty Rocking Horses
Se isso for colocado sobre o BM25 com um tokenizador hierárquico:
- categoria mais específica (filha) = df menor → a pontuação do BM25 automaticamente fica mais alta
- é possível ajustar com precisão o escopo em uma linguagem que o usuário entende (subindo para pai/avô, o escopo vai ficando mais amplo)
- se a classificação for automatizada com LLM, a carga de manutenção também cai bastante
Conclusão:
Embeddings são poderosos, mas não são obrigatórios.
Só com capacidade já madura de categorização/classificação no domínio + apoio de LLM
já seria possível criar uma busca semântica muito mais precisa e com experiência de usuário melhor do que com embeddings, segundo o argumento.
Recomendado especialmente para quem trabalha com busca especializada por domínio, como comércio eletrônico, saúde, jurídico e bibliotecas.
1 comentários
Parece que busca híbrida e RAG com múltiplas consultas são necessários.