1 pontos por GN⁺ 2024-11-21 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Entendendo o algoritmo BM25

    • BM25 é um algoritmo de busca full-text amplamente usado por padrão em Lucene/Elasticsearch e SQLite, entre outros.
    • Recentemente, tornou-se comum implementar a "busca híbrida" combinando busca full-text com busca por similaridade vetorial.
    • O texto parte da pergunta sobre se é possível comparar pontuações do BM25 entre diferentes consultas.
  • Ranqueando documentos

    • O objetivo básico de um algoritmo de busca full-text é encontrar os documentos mais relevantes para uma consulta.
    • O BM25 ranqueia os documentos com base na probabilidade de o documento ser relevante para a consulta.
  • Componentes do BM25

    • Termos da consulta: no caso de uma consulta composta por vários termos, uma pontuação separada é calculada para cada termo e depois somada.
    • Frequência inversa de documento (IDF): calcula a raridade de um determinado termo de busca em toda a coleção de documentos.
    • Frequência do termo no documento: calcula com que frequência o termo de busca aparece em um documento específico.
    • Normalização do tamanho do documento: normaliza o tamanho do documento em comparação com os outros documentos.
  • Expressão matemática do BM25

    • O algoritmo BM25 pode parecer matematicamente complexo, mas fica fácil de entender ao compreender cada um de seus componentes.
    • A fórmula principal é calculada somando a pontuação de cada termo da consulta.
  • A originalidade do BM25

    • Ranqueamento baseado em probabilidade sem calcular probabilidades: o BM25 ranqueia documentos com base no framework probabilístico de relevância.
    • Parte da premissa de que a maioria dos documentos não é relevante: o BM25 assume que a maioria dos documentos não está relacionada à consulta, o que o torna útil mesmo sem usar informações explícitas de relevância.
  • Conclusão

    • As pontuações do BM25 podem ser comparadas entre consultas dentro da mesma coleção.
    • O BM25 não se concentra em estimar a relevância exata de um documento, mas em ranquear sua relevância em relação à consulta.
    • É possível comparar as pontuações BM25 do mesmo documento dentro da mesma coleção.
  • Leitura adicional

    • Se quiser saber mais sobre a teoria e a história do BM25, são recomendadas a palestra de 2016 da engenheira da Elastic Britta Weber e "The Probabilistic Relevance Framework: BM25 and Beyond", de Stephen Robertson e Hugo Zaragoza.

Ainda não há comentários.

Ainda não há comentários.