- Biblioteca open source em Python para web scraping com base em IA
- Cria pipelines de scraping para sites, documentos e arquivos XML usando LLM e lógica de grafos direta
- Basta especificar quais informações você quer extrair, e a biblioteca faz o resto
- Compatível com vários modelos, como Ollama, OpenAI, Groq, Azure e Gemini
- Nós fornecidos
- Nó base, nó de busca de HTML, nó
Image_to_text, nó Text_To-Speech, nó de busca na internet
- Nó condicional: decide o próximo nó do grafo
- Nó de geração de respostas: usa LLM para gerar respostas às perguntas
- Nó
generate_scraper: extrai do conteúdo as informações desejadas com base na entrada do usuário
- Nó
Get_probable_tags: encontra tags HTML com as informações desejadas no conteúdo
- Nó
Parse: extrai informações de documentos HTML
- Nó
Rag: extrai informações relevantes de documentos grandes
- Nó
Robots: verifica se o acesso por robôs é permitido
1 comentários
Fiquei um pouco decepcionado, porque tive a impressão de que ele não faz scraping muito bem em web apps com CSR.
Por outro lado, fiquei bastante satisfeito com SSR.