web_harvester, um coletor web que, quando fica ligado, avisa "o que mudou" (extensão do Chrome + CLI em Python)

(chromewebstore.google.com)

1 pontos por nsjokt 4 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Ao criar crawlers várias vezes, havia algo que sempre me incomodava. Na maioria dos casos, eles coletavam uma vez e pronto; então aquilo que eu realmente queria saber — “o que mudou desde ontem” (queda de preço, novos produtos, mudanças no ranking, mudanças nas avaliações) — exigia entrar de novo manualmente e comparar.

O web_harvester se concentra em ficar rodando continuamente e avisar sobre essas “mudanças”. Como ele acumula os mesmos itens por data no Google Sheets/CSV/Excel/SQL, o que fica não é uma única linha, mas uma tendência. E, quando ocorre uma mudança significativa, ela chega imediatamente por webhook do Slack/Discord ou por e-mail. A frequência de coleta é configurável por você e, por padrão, fica baixa.

Também dei atenção ao lado no-code. A descoberta automática de campos encontra na página candidatos a valores (nome, preço etc.), mostra esses campos e, ao marcar as opções, o mapeamento é feito sem escrever código.

A parte tecnicamente mais interessante foi o motor de recon. Este site tem JSON-LD? Está tudo em __NEXT_DATA__? Ou, no fim, é preciso raspar o DOM? Como eu já estava cansado de abrir o DevTools toda vez para verificar manualmente, transformei esse julgamento em código. A partir de uma página de amostra, ele faz um diagnóstico automático em 5 modos (JSON-LD · variáveis de window (__NEXT_DATA__ etc.) · repetição no DOM · Google af-data/af-one) e escolhe o caminho de extração mais barato e menos suscetível a quebrar com mudanças na UI. Sites em que SSR ou JSON vêm embutidos no documento são processados de forma leve no server-side; páginas dinâmicas ou com login são obtidas pela sua própria sessão do Chrome (navegador real) e passam pelo mesmo código de extração. O núcleo de extração (mapeamento de campos, conversão de tipos e extração de itens) fica fixado por testes unitários offline, o que torna refatorações menos assustadoras.

Os princípios de design foram definidos claramente desde o início: dados públicos · sua própria autorização/sessão · baixa frequência · respeito ao robots. Não fazemos bypass de CAPTCHA nem de proxy.

O formato é um híbrido de extensão Chrome MV3 + CLI em Python. Estou desenvolvendo e operando sozinho, então ainda deve haver partes ásperas; eu ficaria muito grato se você testasse e enviasse feedback, como “seria bom ter este resultado de diagnóstico recon” ou “seria útil ter este tipo de alerta de mudança”.

Instalação gratuita (Chrome Web Store) para experimentar agora — coleta, descoberta de campos e exportação para CSV/Sheets são gratuitos (Basic): https://chromewebstore.google.com/detail/…
Agendamento autônomo e alertas de mudança são Pro (pagamento único · 20% de lançamento aplicado automaticamente): https://joktnova.gumroad.com/l/figvr/LAUNCH20

Dados públicos · sua própria autorização · baixa frequência · respeito ao robots · sem bypass de CAPTCHA/proxy.

web_harvester, um coletor web que, quando fica ligado, avisa "o que mudou" (extensão do Chrome + CLI em Python)

Leituras relacionadas

Ainda não há comentários.