Em 2022, quais são as melhores ferramentas de web scraping?
(news.ycombinator.com)Respostas à pergunta no HN
- Playwright : como aumentou o número de páginas web que exigem execução de JS, ferramentas de automação de navegador são convenientes
- Beautiful Soup : pacote Python prático para criar vários apps de scraping
- No shell,
cURL+pup(markup) /cskit(CSV) /jq(JSON) /psql(DB) - Browserflow : ferramenta de automação de tarefas baseada em navegador web
- curl-impersonate : versão fork que obtém sites como se fosse um navegador
- Helium : Selenium-Python mais fácil de usar
- undetected_chromedriver : Chromedriver customizado para Selenium que passa pela verificação de bots do CloudFlare
- estela : cluster elástico de web scraping que roda no Kubernetes
6 comentários
Ouvi dizer que, quando a equipe do puppeteer foi absorvida pela ms, ele acabou se tornando o playwright mesmo.
Acho que ferramentas como Playwright e Scrapy são boas porque as empresas responsáveis fazem uma boa manutenção.
Pessoalmente, uso bastante o plugin
scrapy-playwright.Como o
Peppeteernão aparece, pelo visto muita gente já migrou para o Playwright.Nos comentários, a maioria das pessoas que realmente usou diz que o Playwright é bom.
Meu voto vai para o Playwright
Uso bastante o HTMLRewriter da Cloudflare.