O estado do web scraping em 2021

(mihaisplace.blog)

26 pontos por xguru 2021-10-05 | 1 comentários | Compartilhar no WhatsApp

O que é web scraping?
Quais são os principais frameworks para web scraping?

→ Python: Scrapy, Beautiful Soup, MechanicalSoup

→ JS: Cheerio, Puppeteer, Apify SDK

→ Java: Jaunt, jsoup

→ Ruby: Kimurai

→ PHP: Goutte

Frameworks pagos de web scraping em nível corporativo

→ Scraper API: rotação de proxies, resolução de captchas e suporte a verificações anti-bot

→ Apify: oferece milhares de plugins desenvolvidos pela comunidade

→ Parsehub: ferramenta no-code de apontar e clicar usando aplicativo de desktop

→ Diffbot: oferece extração de dados com big data/machine learning a partir de dados coletados na web, como empresas, varejo, notícias, fóruns e eventos

→ Octoparse: assim como o Parsehub, usa o método de apontar e clicar. Suporta rotação de IP, limpeza de dados com ferramentas de regex e scraping em grande escala

→ ScrapingBee: ferramenta sem código que oferece recursos complexos

Exemplo de web scraping em Python: usando Beautiful Soup
Exemplo em JavaScript (Node.js): busca no Google com Puppeteer
O que fazer e o que não fazer em web scraping

→ usar apenas uma conexão de IP

→ fazer crawling fora do horário de pico

→ seguir os ToS do site

→ respeitar as regras do robots.txt

→ se o scraping for feito para exibir o conteúdo de outra forma, que seja uma solução única, e não uma simples cópia

→ seguir as regras de GDPR / CCPA

1 comentários

xguru 2021-10-05

Veja também o texto "Web scraping is now legal" no fim do artigo.

É o caso em que o Linkedin pediu para impedir a empresa de análise HiQ de fazer crawling, mas teve o pedido negado por um tribunal dos EUA.

https://medium.com/@tjwaterman99/…

O estado do web scraping em 2021

Leituras relacionadas

1 comentários