sgrep é uma ferramenta de linha de comando que realiza busca semântica para entradas de texto usando embeddings de palavras
- Vai além da simples correspondência de strings e encontra ocorrências semanticamente semelhantes à consulta
- Foi projetada para oferecer uma experiência semelhante ao
grep
- Funcionalidades
- Busca semântica usando embeddings Word2Vec
- Possibilidade de definir limite de similaridade
- Exibição do contexto antes e depois das linhas correspondentes
- Saída com código de cores para palavras correspondentes e números de linha
- Suporte para leitura de arquivos ou da entrada padrão
- Configuração por arquivo JSON e argumentos de linha de comando
- Exemplo de uso
- Modelo Word2Vec
- O
sgrep requer um modelo Word2Vec em formato binário. É possível usar um modelo pré-treinado, como o Word2Vec do Google, ou treinar o seu próprio com ferramentas como gensim
- Baixe o arquivo
.bin localmente e atualize o config.json
download-model.sh é um script auxiliar simples que salva um pequeno modelo word2vec hospedado por eyaler no diretório models/googlenews-slim/
Resumo do GN⁺
sgrep é uma ferramenta que usa embeddings de palavras para buscar termos semanticamente semelhantes em textos
- Oferece uma experiência de uso parecida com a do
grep, mas vai além da simples correspondência de strings
- Usa um modelo Word2Vec para avaliar similaridade e pode ser usada de forma flexível com várias opções de configuração
- Pode ser útil em tarefas de análise de texto e processamento de linguagem natural, especialmente quando é necessária busca baseada em contexto
1 comentários
Comentários no Hacker News
Compartilhando algumas pequenas dicas ao ler o código
Essa ideia parece muito útil e dá vontade de saber por que eu não pensei nisso antes
Já existe uma ferramenta e uma empresa chamadas semgrep
Isso seria muito útil se a ferramenta conseguisse lidar com frases descritivas ou compostas
Ferramenta muito legal
Essa ferramenta é muito legal e eu realmente quero experimentá-la
Sugere o fltr como ferramenta semelhante
Muito legal, e fica a dúvida se também é possível pesquisar nomes de arquivos
Acabei descobrindo uma ferramenta muito legal