39 pontos por xguru 2022-08-15 | 6 comentários | Compartilhar no WhatsApp

Respostas à pergunta no HN

  • Playwright : como aumentou o número de páginas web que exigem execução de JS, ferramentas de automação de navegador são convenientes
  • Beautiful Soup : pacote Python prático para criar vários apps de scraping
  • No shell, cURL + pup (markup) / cskit (CSV) / jq (JSON) / psql (DB)
  • Browserflow : ferramenta de automação de tarefas baseada em navegador web
  • curl-impersonate : versão fork que obtém sites como se fosse um navegador
  • Helium : Selenium-Python mais fácil de usar
  • undetected_chromedriver : Chromedriver customizado para Selenium que passa pela verificação de bots do CloudFlare
  • estela : cluster elástico de web scraping que roda no Kubernetes

6 comentários

 
yangeok 2022-08-24

Ouvi dizer que, quando a equipe do puppeteer foi absorvida pela ms, ele acabou se tornando o playwright mesmo.

 
youth 2022-08-15

Acho que ferramentas como Playwright e Scrapy são boas porque as empresas responsáveis fazem uma boa manutenção.
Pessoalmente, uso bastante o plugin scrapy-playwright.

 
vwjdalsgkv 2022-08-15

Como o Peppeteer não aparece, pelo visto muita gente já migrou para o Playwright.

 
xguru 2022-08-16

Nos comentários, a maioria das pessoas que realmente usou diz que o Playwright é bom.

 
jjpark78 2022-08-15

Meu voto vai para o Playwright

 
cometkim 2022-08-15

Uso bastante o HTMLRewriter da Cloudflare.