20 pontos por xguru 2024-05-10 | 1 comentários | Compartilhar no WhatsApp
  • Biblioteca open source em Python para web scraping com base em IA
    • Cria pipelines de scraping para sites, documentos e arquivos XML usando LLM e lógica de grafos direta
  • Basta especificar quais informações você quer extrair, e a biblioteca faz o resto
  • Compatível com vários modelos, como Ollama, OpenAI, Groq, Azure e Gemini
  • Nós fornecidos
    • Nó base, nó de busca de HTML, nó Image_to_text, nó Text_To-Speech, nó de busca na internet
    • Nó condicional: decide o próximo nó do grafo
    • Nó de geração de respostas: usa LLM para gerar respostas às perguntas
    • generate_scraper: extrai do conteúdo as informações desejadas com base na entrada do usuário
    • Get_probable_tags: encontra tags HTML com as informações desejadas no conteúdo
    • Parse: extrai informações de documentos HTML
    • Rag: extrai informações relevantes de documentos grandes
    • Robots: verifica se o acesso por robôs é permitido

1 comentários

 
ng0301 2024-05-13

Fiquei um pouco decepcionado, porque tive a impressão de que ele não faz scraping muito bem em web apps com CSR.
Por outro lado, fiquei bastante satisfeito com SSR.