Atualmente, o GeekNews usa a busca do Google incorporada,
pessoalmente sinto um certo incômodo com isso.
Quando lembro de palavras-chave aproximadas de uma notícia que vi recentemente e pesquiso por elas,
às vezes é difícil encontrá-la porque não há como ordenar por mais recentes.
Já vi implementações com vector store em wasm,
mas como mecanismos de busca não são a minha área, tenho dificuldade até de imaginar como projetar isso.
Se implementar algo como fuzzy search no frontend,
parece que isso acabaria aumentando a carga no servidor de qualquer forma.
É mais por curiosidade e discussão, mas existe alguma forma eficaz de implementar isso?
7 comentários
Eu gosto muito de busca, sou meio viciado nisso, mas qual é mais ou menos o volume de buscas por dia?
Se for baixo, dá para manter de forma aproximada o método de busca atual e experimentar busca em linguagem natural usando um modelo de
rerank.Esta é, em linhas gerais, a estrutura de busca do serviço que eu criei antes.
Grosso modo, primeiro eu disparo a query no ES e depois aplico a API de rerank da Cohere, servindo com base no corpo do texto cujo rerank score melhor corresponde à linguagem natural.
Mas, pensando bem, se vocês fizeram embedding do Google, parece que não deve haver uma forma clara de trazer o corpo em HTML dentro dos itens do resultado da busca. Ainda assim, vou deixar o link.
Link: https://dev-wiki.dev/reading/tech/1
Como estou muito à toa e gosto de busca, agradeço se deixarem comentários caso ainda haja algo a discutir sobre isso : )
No meu caso, acho um pouco incômodo o fato de os resultados mais recentes não aparecerem primeiro. Acho que uma busca mais simples, como nos antigos fóruns BBS, usando uma consulta
LIKE, atenderia melhor às minhas necessidades. Embora, por causa da velocidade, talvez seja preciso considerar um pouco orange..Também concordo com esse incômodo. Por exemplo, quando se pesquisa por "AI", acontece com certa frequência de aparecer na primeira página um post de 5 anos atrás.
Parece que os resultados da busca incorporada do Google são retornados em JSON, então vocês poderiam pegar isso e ordenar.
Confira a requisição em https://cse.google.com/cse/element/v1
Que tal pesquisar direto no Google?
query: site:news.hada.io duckdb
https://google.com/search/…