Startup fracassada Buzee vira código aberto – aplicativo de busca de arquivos

(github.com/gsidhu)

11 pontos por GN⁺ 2024-12-16 | 3 comentários | Compartilhar no WhatsApp

Buzee é um aplicativo de busca de texto completo que pode ser usado no Mac e no Windows
Ferramenta que permite aos usuários fazer buscas Full-Text rápidas em todos os documentos, imagens, áudios, vídeos, pastas e histórico do navegador
Permite buscar documentos e pastas locais por palavra-chave, tempo, tipo ou combinações desses filtros
É possível excluir arquivos ou pastas específicos da indexação, ou excluir apenas o conteúdo
É possível mostrar/ocultar o app usando um atalho global (⎇ / Alt + Space)
Navegação rápida dentro do app para a busca (⌘ / Ctrl + F or K) e para o scratchpad (⌘ / Ctrl + Shift + S)
Permite ver estatísticas sobre arquivos e fornece perfis únicos de documentos
Recursos adicionais: extração de texto de PDFs e imagens, uso de scratchpad, sincronização automática com mudanças no sistema de arquivos
Pacote de instalação leve e baixo uso de memória
Formatos de arquivo suportados
- Documentos: csv, docx, key, md, numbers, pages, pdf, pptx, txt, xlsx, xls
- Imagens: jpg, jpeg, png, gif
- Livros: epub, mobi, azw3, pdf
- Áudio: mp3, wav, aac, flac, ogg
- Vídeo: mp4, mkv, avi, mov, wmv
Código aberto baseado em Rust + NodeJS + Tauri

Busca semântica

Incluir/excluir na busca

É possível usar filtros por tipo de arquivo ou digitá-los diretamente na consulta de busca (ex.: invoice pdf)
Use aspas nas palavras-chave para buscar frases exatas (ex.: "annual report")
Use hífen antes de palavras-chave que devem ser excluídas da busca (ex.: "annual report" -2022 -pdf)

Buscar por tempo

É possível usar filtros de intervalo de datas ou especificar datas/períodos diretamente na consulta de busca
Ex.: **last month** pdf invoice, annual report ppt **this year**

Compilar a partir do código-fonte

O Buzee oferece melhor desempenho no Mac, e não foi suficientemente testado no Windows e no Linux
Após instalar Rust e NodeJS, é possível executar o app em modo de desenvolvimento com os comandos npm install e cargo install

TODO / problemas conhecidos

Ainda é necessário melhorar vários recursos, como mostrar o texto correspondente nos resultados de busca e oferecer suporte a consultas complexas na busca do histórico do navegador
Também é necessário desenvolver novos recursos, como adicionar "tags" aos documentos, criar uma visualização de "dashboard" e adicionar testes ao codebase

Stack técnica

Backend: Rust, Tauri v2, SQLite, Tantivy
Frontend: Svelte 4, TypeScript, TailwindCSS

Arquitetura

Todos os metadados de arquivos são armazenados na tabela document do SQLite
Um índice de texto completo é criado na tabela metadata e armazenado no Tantivy
O histórico do Firefox, Chrome e Arc é pesquisado por meio de seus respectivos bancos de dados de histórico

Licença

Licença MIT.

3 comentários

dhlee0305 2024-12-16

Fiquei um pouco hesitante por ser a versão 0.1.1... mas, por enquanto, funciona sem problemas.
Só que, como estou usando no PC, não sei se está configurado para usar poucos recursos, mas a velocidade de indexação parece lenta.
Além disso, é conveniente porque consegue encontrar texto dentro dos arquivos, inclusive em imagens. Lembra um pouco o Google Desktop.

xguru 2024-12-16

recoll - ferramenta de busca full-text para desktop

GN⁺ 2024-12-16

Comentários do Hacker News

Um usuário pediu que fosse compartilhada a jornada sobre por que fracassou e o que seria feito de forma diferente se estivesse começando agora. Também levantou a questão da falta de mercado ou dos problemas de adaptação como motivo pelo qual várias startups de busca universal fracassam
Houve um comentário agradecendo por tornar o projeto open source e apontando a ausência de recursos de busca com IA. A pessoa acha que o app tem uma base sólida, mas precisa de mais refinamento para ser realmente prático
Foi explicado que é possível usar um programa chamado Recoll para buscar vários tipos de arquivos. Destacou-se a capacidade de pesquisar documentos do MS-Word armazenados na pasta do Thunderbird e abrir arquivos PDF com dois cliques
Foi mencionado um problema de download, com a observação de que isso seria útil em ambientes onde a quantidade de registros eletrônicos é tão grande que a busca do Windows não funciona. Também foi enfatizada a necessidade de gerenciar arquivos eletrônicos
Houve uma piada dizendo que não usaria um programa chamado Labrador Retriever, junto com o compartilhamento de uma foto do próprio cachorro
Foi mencionado que a ideia era uma tentativa de implementar algo semelhante ao Microsoft SharePoint, apontando que convencer empresas centradas em MS é o problema do ponto de vista de negócios. Também foi feita a pergunta se seria possível construir um produto sobre o SharePoint
Foi apontado que o link de download não funciona, com a sugestão de que projetos cujo principal valor está na GUI deveriam incluir capturas de tela
Foi sugerida a opção de usar extensões do duckdb para executar SQL no sistema de arquivos em buscas de arquivos complexas
Foi pedido recomendações de apps capazes de pesquisar no Google Drive, GitHub, GitLab, Box.com e arquivos locais
Houve um comentário agradecendo por tornar o projeto open source e apontando a falta de documentação. A pessoa disse que está construindo um sistema de documentação com IA, perguntou se poderia escrever a documentação e criar um PR, e apresentou o projeto AkiraDocs