32 pontos por xguru 5 일 전 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Framework de web scraping de alto desempenho que implementa nativamente a arquitetura do Scrapy em Python, aproveitando o desempenho da linguagem Go
  • Com uma única linha de comando, goscrapy startproject faz o scaffolding automático da estrutura do projeto, inicialização do módulo Go e resolução de dependências
  • Scraping paralelo de alta vazão com base no modelo de concorrência do Go; o framework gerencia automaticamente tentativas, cookies e tratamento de concorrência
  • Nova tentativa automática com exponential back-off em caso de falha
  • Arquitetura com fluxo de dados claro: Spider → Engine → Scheduler → Worker → Middleware → HTTP Client
    • A Spider envia as requisições para o Engine, e o Engine faz o agendamento no Scheduler
    • O Scheduler garante um worker disponível na Worker Queue e então encaminha a tarefa ao Worker
    • O Worker aciona o Executor, e o Executor envia a requisição ao HTTP Client passando pelos Middlewares
    • A resposta retorna na ordem inversa: Middlewares → Executor → callback da Spider
    • Quando a Spider faz yield de registros, o Engine exporta os dados para DB, CSV, arquivos etc. por meio do PipelineManager
  • Inclui por padrão diversos pipelines de exportação, como CSV, JSON, MongoDB, Google Sheets e Firebase
  • Oferece middlewares embutidos como Azure TLS e Dupefilter, com um design que permite substituir e estender quase todas as camadas
  • Parsing de HTML flexível com seletores CSS/XPath encadeáveis
  • Em settings.go, middlewares e pipelines são configurados de forma centralizada, enquanto spider.go fica focado apenas na lógica de parsing
  • Traz exemplos práticos como scraper do Google Maps, Fingerprint Spoofing (evasão de detecção de bots) e monitoramento em tempo real via TUI
  • Atualmente em fase de desenvolvimento v0.x, com melhorias contínuas na Core API rumo a uma v1.0 estável
  • Business Source License (BSL): pode ser usado livremente em produtos comerciais, mas há restrições para revender o próprio framework como serviço concorrente

Ainda não há comentários.

Ainda não há comentários.