Entendendo o algoritmo de busca full-text BM25
(emschwartz.me)-
Entendendo o algoritmo BM25
- BM25 é um algoritmo de busca full-text amplamente usado por padrão em Lucene/Elasticsearch e SQLite, entre outros.
- Recentemente, tornou-se comum implementar a "busca híbrida" combinando busca full-text com busca por similaridade vetorial.
- O texto parte da pergunta sobre se é possível comparar pontuações do BM25 entre diferentes consultas.
-
Ranqueando documentos
- O objetivo básico de um algoritmo de busca full-text é encontrar os documentos mais relevantes para uma consulta.
- O BM25 ranqueia os documentos com base na probabilidade de o documento ser relevante para a consulta.
-
Componentes do BM25
- Termos da consulta: no caso de uma consulta composta por vários termos, uma pontuação separada é calculada para cada termo e depois somada.
- Frequência inversa de documento (IDF): calcula a raridade de um determinado termo de busca em toda a coleção de documentos.
- Frequência do termo no documento: calcula com que frequência o termo de busca aparece em um documento específico.
- Normalização do tamanho do documento: normaliza o tamanho do documento em comparação com os outros documentos.
-
Expressão matemática do BM25
- O algoritmo BM25 pode parecer matematicamente complexo, mas fica fácil de entender ao compreender cada um de seus componentes.
- A fórmula principal é calculada somando a pontuação de cada termo da consulta.
-
A originalidade do BM25
- Ranqueamento baseado em probabilidade sem calcular probabilidades: o BM25 ranqueia documentos com base no framework probabilístico de relevância.
- Parte da premissa de que a maioria dos documentos não é relevante: o BM25 assume que a maioria dos documentos não está relacionada à consulta, o que o torna útil mesmo sem usar informações explícitas de relevância.
-
Conclusão
- As pontuações do BM25 podem ser comparadas entre consultas dentro da mesma coleção.
- O BM25 não se concentra em estimar a relevância exata de um documento, mas em ranquear sua relevância em relação à consulta.
- É possível comparar as pontuações BM25 do mesmo documento dentro da mesma coleção.
-
Leitura adicional
- Se quiser saber mais sobre a teoria e a história do BM25, são recomendadas a palestra de 2016 da engenheira da Elastic Britta Weber e "The Probabilistic Relevance Framework: BM25 and Beyond", de Stephen Robertson e Hugo Zaragoza.
Ainda não há comentários.