8 pontos por versionx 2026-03-20 | 2 comentários | Compartilhar no WhatsApp

Ao usar o qmd existente, encontrei alguns problemas e criei um mecanismo de busca local para substituí-lo.

O incômodo de ter que indexar/fazer embedding de todas as coleções de uma vez em um único banco sqlite
-> Separando isso, fica possível gerenciar coleções por projeto, e atualizações de índice também fluem melhor quando vários agentes trabalham ao mesmo tempo.

O problema de oferecer suporte apenas ao pré-processamento padrão baseado em inglês
-> Há suporte para adicionar diretamente um preprocessor baseado em i/o de comando. No repositório, deixei o lindera-ko, que apresentou o melhor desempenho após vários benchmarks. Para instalar, consulte o guia.

O problema de demorar muito para fazer cold loading do modelo para busca híbrida quando o teste de gap do BM25 falha
-> Um daemon fica em execução e mantém o modelo carregado na memória.

Em comparação com o qmd, é mais de 20 vezes mais rápido em estado warm,
e, diferentemente do qmd, que não tem benchmark para pontuação de relevância,
fiz um pequeno ajuste de score usando um corpus real como alvo.

Como esta é a primeira publicação, podem surgir problemas; ficarei grato se me avisarem nos comentários ou registrarem uma issue.

Guia em coreano: https://github.com/vlwkaos/ir/blob/main/README.ko.md

2 comentários

 
dalinaum 2026-04-05

Eu estava preocupado por causa das limitações do QMD, então isso parece promissor!

 
minhoryang 2026-03-21

Oh, vou usar bastante!