26 pontos por xguru 2021-10-05 | 1 comentários | Compartilhar no WhatsApp
  • O que é web scraping?

  • Quais são os principais frameworks para web scraping?

→ Python: Scrapy, Beautiful Soup, MechanicalSoup

→ JS: Cheerio, Puppeteer, Apify SDK

→ Java: Jaunt, jsoup

→ Ruby: Kimurai

→ PHP: Goutte

  • Frameworks pagos de web scraping em nível corporativo

→ Scraper API: rotação de proxies, resolução de captchas e suporte a verificações anti-bot

→ Apify: oferece milhares de plugins desenvolvidos pela comunidade

→ Parsehub: ferramenta no-code de apontar e clicar usando aplicativo de desktop

→ Diffbot: oferece extração de dados com big data/machine learning a partir de dados coletados na web, como empresas, varejo, notícias, fóruns e eventos

→ Octoparse: assim como o Parsehub, usa o método de apontar e clicar. Suporta rotação de IP, limpeza de dados com ferramentas de regex e scraping em grande escala

→ ScrapingBee: ferramenta sem código que oferece recursos complexos

  • Exemplo de web scraping em Python: usando Beautiful Soup

  • Exemplo em JavaScript (Node.js): busca no Google com Puppeteer

  • O que fazer e o que não fazer em web scraping

→ usar apenas uma conexão de IP

→ fazer crawling fora do horário de pico

→ seguir os ToS do site

→ respeitar as regras do robots.txt

→ se o scraping for feito para exibir o conteúdo de outra forma, que seja uma solução única, e não uma simples cópia

→ seguir as regras de GDPR / CCPA

1 comentários

 
xguru 2021-10-05

Veja também o texto "Web scraping is now legal" no fim do artigo.

É o caso em que o Linkedin pediu para impedir a empresa de análise HiQ de fazer crawling, mas teve o pedido negado por um tribunal dos EUA.

https://medium.com/@tjwaterman99/…