1 comentários

 
GN⁺ 2024-12-26
Comentários do Hacker News
  • Há uma pergunta sobre por que usar o modelo do mixbread.
  • Há uma pergunta sobre melhoria de eficiência ao binarizar embeddings e usar distância de Hamming.
  • Há uma pergunta sobre por que escolher o Milvus em vez de outro banco de dados de vetores.
  • Há uma pergunta sobre se existe automação de metadados semanais.
  • A opinião do usuário de que a pesquisa por "transformers em nível de byte" foi positiva, mas não encontrou os artigos mais recentes.
    • Se quiser mais densidade de resultados, pode-se considerar, como opção da UI, recolher os resumos para mostrar mais resultados imediatamente.
  • Ao pensar em expandir além do arXiv, grandes editoras estão forçando a remoção de abstracts em fontes como o OpenAlex, o que pode dificultar revisões de literatura.
  • Há uma pergunta sobre se já verificaram outras ferramentas como undermind.ai, scite.ai, elicit.org.
  • Há uma necessidade de considerar o que mais pode fazer parte de um fluxo de trabalho de produto dedicado à revisão de literatura além da busca.
  • No passado, foi possível fazer brute force em tempo real com CPU em bancos de dados de vetores como o gensim/doc2vec.
  • Há ideias de outras áreas boas onde a busca semântica pode ser útil.
    • Busca de publicidade online: embutir e indexar anúncios de vídeo e imagem para encontrar inspiração de marketing.
    • Pesquisa em múltiplos e-commerces: encontrar produtos no Sephora, zara, h&m, etc.
  • Há comentários de que adicionar links de "papers similares" em cada paper ajudaria a descobrir tópicos.
  • Há uma pergunta sobre quais benefícios a busca semântica oferece em relação à busca por texto.
    • Há uma pergunta se existe um benchmark para validar se a busca melhora.
  • Há uma pergunta sobre se é semelhante ao Semantic Scholar do Allen Institute for AI.
  • Há uma sugestão de adicionar um cliente de ferramenta de busca ao backend do paper-qa.
  • Há uma opinião de querer fazer crawl no scihib e conectar.
  • Há uma observação sobre problema de codificação.
    • Ao procurar por "Avaliação de alto desempenho da UPC", retorna um paper com bug no nome dos autores.