Flamehaven FileSearch — mecanismo de busca de documentos RAG open source com self-hosting
(github.com/flamehaven01)🔥Flamehaven FileSearch
- Flamehaven FileSearch é um mecanismo de busca semântica open source com self-hosting que permite a qualquer pessoa montar, em 5 minutos, um sistema RAG (Retrieval-Augmented Generation) baseado em documentos.
- Ele funciona com base em Python, FastAPI e SQLite, e usa Google Gemini Embedding para realizar perguntas e respostas em linguagem natural em vários tipos de documentos, como PDF/DOCX/TXT/MD.
Por que foi criado?
- A maioria das implementações open source de RAG funciona bem em ambientes como Colab ou Jupyter, mas, na hora de colocar em um servidor real para operar, a estrutura costuma ser complexa ou falta estabilidade.
- O Flamehaven FileSearch foi projetado com o objetivo de ser uma “stack RAG leve que realmente funciona”, para que pesquisadores, startups e desenvolvedores independentes possam experimentar imediatamente busca semântica com seus próprios dados.
Por que vale a atenção?
- Autonomia total: não depende de servidores externos nem de nuvem, e todos os dados são armazenados localmente.
- Estrutura centrada no desenvolvedor: Python SDK + REST API, com documentação Swagger gerada automaticamente com base em FastAPI.
- Distribuição como pacote PyPI: instalação imediata em PyPI — instalação totalmente automática com uma única linha:
pip install flamehaven-filesearch[api]. - Execução imediata: após instalar, basta iniciar o servidor com o comando
flamehaven-api, e no navegador é possível testar a API em/docs. - Escalabilidade: armazenamento em SQLite, arquitetura de plugins e suporte a implantação com Docker.
- Adequado para educação e pesquisa: usa embeddings do Gemini, sendo ideal para práticas de busca semântica baseadas em LLMs modernos.
O que está incluído? (destaques)
-
Python SDK:
from flamehaven_filesearch import FlamehavenFileSearch→ oferece todas as funções de upload de documentos / busca / gerenciamento de stores.
-
REST API: endpoints
/upload,/search,/stores+ Swagger UI. -
Suporte a Docker:
docker run -e GEMINI_API_KEY=... -p 8000:8000 flamehaven/filesearch:latest -
Estrutura:
core(engine)/api(FastAPI)/data(SQLite)/examples/docs
Teste rápido
1️⃣ Pacote PyPI
O Flamehaven FileSearch pode ser instalado diretamente via PyPI.
Ver a versão mais recente: https://pypi.org/project/flamehaven-filesearch
pip install flamehaven-filesearch[api]
2️⃣ Instalação
pip install flamehaven-filesearch[api]
export GEMINI_API_KEY="your-google-gemini-key"
flamehaven-api
3️⃣ Upload de documento e busca
curl -X POST "http://localhost:8000/upload" -F "file=@handbook.pdf"
curl "http://localhost:8000/search?q=vacation+policy"
4️⃣ Exemplo de uso do SDK
from flamehaven_filesearch import FlamehavenFileSearch
fs = FlamehavenFileSearch()
fs.upload_file("handbook.pdf")
print(fs.search("vacation policy")["answer"])
Desempenho e especificações
- Ambiente: Ubuntu 22.04 / 2vCPU / 4GB RAM / SSD
- Upload de PDF de 10MB → cerca de 5 segundos
- Tempo médio de resposta da busca → 2 segundos (ao citar 5 fontes)
- Exclusão/criação de store → menos de 1 segundo
- Overhead de armazenamento → cerca de 5% do tamanho do documento
Roadmap
- v1.1 : cache e gerenciamento de cotas
- v1.2 : busca em lote + streaming via WebSocket
- v2.0 : suporte a documentos multilíngues, dashboard de análise
- Futuro : integração com vector DBs Pinecone/Weaviate, OCR, stores colaborativos
Licença
- MIT License (totalmente open source)
🛡️ Aviso de segurança e conta do Flamehaven no Github
Recentemente, após a detecção de tentativas suspeitas de login na conta do Flamehaven no GitHub (esta conta principal), a conta foi colocada em estado de suspensão. No momento, a equipe está verificando o problema em cooperação com o time de segurança do GitHub.
Por causa deste incidente, contas que incluem dir2md, flashrecord, crom-efficient, Arr-medic-cyp3a4 e outras permanecerão temporariamente sem uso.
Pedimos sinceras desculpas pelo inconveniente aos usuários e agradecemos pela compreensão até que a verificação de segurança seja concluída.
Ainda não há comentários.