12 pontos por xguru 2021-07-21 | 1 comentários | Compartilhar no WhatsApp
  • Baseado em Rust + Tantivy (open source semelhante ao Apache Lucene implementado em Rust, com suporte a tokenizador em coreano)

  • Projetado para ser ideal para indexar grandes conjuntos de dados

→ Separa Compute e Storage: permite pesquisar em armazenamentos como S3

→ Gerenciamento fácil de cluster de busca: é possível adicionar/remover instâncias em poucos segundos

  • Recursos suportados

→ CLI simples para gerenciamento de índices e clusters

→ Índices locais/remotos

→ Instâncias stateless

→ Pode ser usado com qualquer object storage que suporte consultas Byte Range

→ Busca full text (incluindo Phrase Query)

→ Suporte nativo a particionamento por tempo

→ Suporte a consultas booleanas

→ Suporte aos tipos de dados text, i64, f64, date, bytes e tipos compostos como object e array

1 comentários

 
xguru 2021-07-21

Como eles implementaram isso de forma custo-eficiente está explicado no texto de apresentação no blog.

Quando apresentei antes " Bayard - servidor de busca full-text e indexação implementado em Rust https://pt.news.hada.io/topic?id=841 ", o Tantivy não tinha um tokenizador para coreano, mas parece que foi adicionado.

https://github.com/lindera-morphology/lindera-ko-dic-builder

tokenizador para coreano