Arquitetura de crawlers web

chernobyl · 2021-05-26T12:34:09+09:00

Até agora, a maioria dos web crawlers amplamente apresentados na internet são, na verdade, 'scrapers', e é difícil chamá-los de crawlers de fato O autor apresenta brevemente artigos que definem o que é um web crawler Um crawler é uma aplicação que percorre o mundo da internet em BFS e DFS. As regras para robôs são uma questão muito importante, a ponto de poderem determinar a imagem de uma empresa, mas muitas startups não sabem disso.

(velog.io)

16 pontos por chernobyl 2021-05-26 | 4 comentários | Compartilhar no WhatsApp

Até agora, a maioria dos web crawlers amplamente apresentados na internet são, na verdade, 'scrapers', e é difícil chamá-los de crawlers de fato
O autor apresenta brevemente artigos que definem o que é um web crawler
Um crawler é uma aplicação que percorre o mundo da internet em BFS e DFS.
As regras para robôs são uma questão muito importante, a ponto de poderem determinar a imagem de uma empresa, mas muitas startups não sabem disso.

4 comentários

youth 2021-05-27

No ano passado também li um texto dessa pessoa e fiquei pensando por que ela vivia de forma tão enviesada; não sei se pelo menos melhorou um pouco.

Sendo realista, a menos que você seja de uma grande empresa que literalmente opera um mecanismo de busca...

Mesmo que se use crawler, no caso de mineração de texto, se não for inglês, o custo de pré-processamento é alto, então é difícil extrair dados de qualidade com um crawler desse tipo; e, na área de processamento de imagem, já existem datasets de qualidade aos montes, então não há motivo para operar um crawler de propósito. Não é à toa que, deixando uma teoria tão boa de lado, o que domina é scraper. É só porque o valor obtido com todo esse sofrimento é baixo.

Esse tal “crawler completo” de que essa pessoa fala pode até soar bem na teoria, mas no fim não passa de extrair dados com uma probabilidade um pouco maior, então é um trambolho difícil de usar hoje em dia em áreas como IA e afins. O custo de manutenção não é baixo, os dados extraídos não são completos, é difícil de gerenciar e ainda há muitos problemas legais. Para uma pessoa ou empresa considerar tudo isso, acaba sendo mais econômico simplesmente rodar alguns scrapers em sites grandes. Um único scraper bem analisado e bem construído para um site grande é centenas ou milhares de vezes mais econômico e prático do que ficar entrando em 10 mil sites inúteis. Para operar “bem” um único crawler em ampla escala, já é difícil mesmo com mestres e doutores envolvidos. Se ainda tiver que monitorar o crawler e ajustar a lógica, fica mais assustador ainda. Como até os logs seriam enormes, provavelmente até isso teria que ser processado de forma distribuída.

Claro que concordo plenamente que crawler é uma base central e importante, mas fico pensando se era realmente necessário passar o ano inteiro falando disso enquanto ficava hierarquizando crawler e scraper.

Mesmo olhando agora, continuo sem entender por que essa pessoa ignora o Scrapy. Pelo menos em opções e extensões, ele deve ter muito mais do que o gocolly.

Bom, isso pode variar conforme a perspectiva de cada um, mas eu também trabalho numa equipe de coleta de big data, então deixo aqui minha opinião modesta.

twince 2021-05-28

Concordo.

kunggom 2021-05-26

Como o texto ainda parece inacabado, há alguns pontos em que dá a impressão de que faltam conteúdos que deveriam estar lá.

No meio, o [Lambda Crawl] mencionado no agendamento de revisita seria a referência ao artigo Effective Page Refresh Policies For Web Crawlers? Quando pesquiso por essa palavra-chave, só aparecem várias histórias sobre fazer crawling com o Lambda, o serviço serverless da AWS, e coisas do tipo. Mas, curiosamente, esse artigo não parece estar na lista de referências abaixo…

http://ilpubs.stanford.edu:8090/604/1/2003-44.pdf

chernobyl 2021-05-27

Esse artigo, "Tractable near-optimal policies for crawling", aparece aqui.

Arquitetura de crawlers web

Leituras relacionadas

4 comentários