1 pontos por GN⁺ 2023-09-03 | 1 comentários | Compartilhar no WhatsApp
  • Artigo sobre um novo mecanismo de busca da Wikipédia baseado no navegador, com busca offline disponível
  • Recurso do mecanismo de busca de pesquisar em um milhão de páginas da Wikipédia em tempo real, retornando resultados a cada 10 ms em dispositivos móveis
  • Pequeno tamanho do banco de dados do mecanismo de busca, suportando um milhão de embeddings para casos de uso casuais sem processamento especial
  • Mecanismo de busca que usa um transformador de sentenças para embeddings de documentos, compressão dos embeddings com quantização de produto e pq.js para executar o cálculo de distância no navegador
  • Uso de transformers.js no mecanismo de busca para executar um transformador de sentenças no navegador para consultas
  • Mecanismo de busca que ordena os embeddings pelo tamanho comprimido das páginas, para que páginas com alta densidade de informação sejam analisadas primeiro e retornadas no top 10
  • Mecanismo de busca que usa Arrow em vez de JSON para alto desempenho; Arrow pode armazenar de forma compacta arrays de quantização de produto em inteiros de 8 bits
  • Mecanismo de busca que usa modelos ONNX executados em WebAssembly, ainda sem aceleração por GPU
  • Mecanismo de busca que gera embeddings de toda a Wikipédia com um transformador de sentenças, comprime os embeddings com quantização de produto e escreve ONNX manualmente
  • Mecanismo de busca que exporta numpy para Arrow para armazenar embeddings e metadados, de forma muito mais compacta em memória e em disco
  • Mecanismo de busca que oferece suporte a busca facetada, permitindo pesquisa em tempo real em subcategorias de produtos
  • O autor convida feedback e sugestões de melhoria, especialmente sobre suporte a outros níveis de quantização e diferentes dimensões de embedding

1 comentários

 
GN⁺ 2023-09-03
Comentários do Hacker News
  • Artigo sobre uma nova ferramenta para pesquisar a Wikipedia offline
  • Alguns usuários relatam que essa ferramenta tem precisão inferior à de serviços de IA como o ChatGPT
  • Ferramenta que usa embeddings de texto para corresponder consultas de busca
  • Um artigo recente intitulado "Text Search Based on Abstract Descriptions" possibilita consultas de busca mais abstratas
  • Alguns usuários acharam que a ferramenta é menos eficaz do que o Google para retornar os resultados esperados
  • Um usuário sugeriu que a ferramenta poderia melhorar se incorporasse apenas frases ou parágrafos definidores, em vez de documentos completos de artigos da Wikipedia
  • Elogios à capacidade offline e à implementação da ferramenta, apesar de algumas críticas à precisão
  • Alguns usuários estão enfrentando problemas técnicos relacionados à ferramenta, como tempos de carregamento lentos
  • Menção a um projeto semelhante chamado SemanticFinder, que permite ao usuário copiar e colar textos de qualquer tamanho e retorna os segmentos mais semelhantes
  • Um usuário apontou que a eficácia da ferramenta pode ser limitada pela qualidade da forma como os tópicos são descritos na Wikipedia
  • Alguns usuários ficaram decepcionados com os resultados da ferramenta, mas reconheceram a tecnologia impressionante por trás dela
  • Um usuário sugeriu que a abordagem da ferramenta de incorporar artigos inteiros pode não ser a melhor para esse tipo de aplicação