O estado do web scraping em 2021
(mihaisplace.blog)-
O que é web scraping?
-
Quais são os principais frameworks para web scraping?
→ Python: Scrapy, Beautiful Soup, MechanicalSoup
→ JS: Cheerio, Puppeteer, Apify SDK
→ Java: Jaunt, jsoup
→ Ruby: Kimurai
→ PHP: Goutte
- Frameworks pagos de web scraping em nível corporativo
→ Scraper API: rotação de proxies, resolução de captchas e suporte a verificações anti-bot
→ Apify: oferece milhares de plugins desenvolvidos pela comunidade
→ Parsehub: ferramenta no-code de apontar e clicar usando aplicativo de desktop
→ Diffbot: oferece extração de dados com big data/machine learning a partir de dados coletados na web, como empresas, varejo, notícias, fóruns e eventos
→ Octoparse: assim como o Parsehub, usa o método de apontar e clicar. Suporta rotação de IP, limpeza de dados com ferramentas de regex e scraping em grande escala
→ ScrapingBee: ferramenta sem código que oferece recursos complexos
-
Exemplo de web scraping em Python: usando Beautiful Soup
-
Exemplo em JavaScript (Node.js): busca no Google com Puppeteer
-
O que fazer e o que não fazer em web scraping
→ usar apenas uma conexão de IP
→ fazer crawling fora do horário de pico
→ seguir os ToS do site
→ respeitar as regras do robots.txt
→ se o scraping for feito para exibir o conteúdo de outra forma, que seja uma solução única, e não uma simples cópia
→ seguir as regras de GDPR / CCPA
1 comentários
Veja também o texto "Web scraping is now legal" no fim do artigo.
É o caso em que o Linkedin pediu para impedir a empresa de análise HiQ de fazer crawling, mas teve o pedido negado por um tribunal dos EUA.
https://medium.com/@tjwaterman99/…