- A Cloudflare disponibilizou em beta aberto o novo endpoint /crawl do Browser Rendering, que permite rastrear um site inteiro com uma única chamada de API
- Ao enviar uma URL inicial, o sistema navega automaticamente pelas páginas, faz a renderização com navegador headless e retorna os resultados em HTML, Markdown e JSON
- Oferece vários recursos, como saída JSON estruturada com base no Workers AI, controles de escopo como profundidade de rastreamento, limite de páginas e padrões com curingas, além de rastreamento incremental e modo estático
- Segue as regras de robots.txt e também oferece suporte a crawl-delay para evitar tráfego anormal
- Pode ser usado para treinamento de modelos, criação de pipelines de RAG e pesquisa e monitoramento de conteúdo em todo o site
Visão geral do endpoint /crawl
- O endpoint /crawl recém-adicionado ao serviço Browser Rendering da Cloudflare oferece a capacidade de explorar um site inteiro e coletar conteúdo com uma única chamada de API
- O usuário envia uma URL inicial, e o sistema segue automaticamente os links, renderiza as páginas e retorna os resultados
- O formato de retorno pode ser escolhido entre HTML, Markdown e JSON estruturado
- Esse recurso está disponível em beta aberto (open beta) e pode ser usado nos planos Workers Free e Paid
- As tarefas de rastreamento são executadas de forma assíncrona (asynchronous)
- Ao enviar a URL, o usuário recebe um job ID, e depois pode consultar os resultados quando o processamento terminar
- As páginas são processadas sequencialmente, e os resultados concluídos podem ser verificados gradualmente
Principais recursos
- Suporte a múltiplos formatos de saída
- Retorna resultados em vários formatos, como HTML, Markdown e JSON
- O formato JSON é fornecido como dados estruturados por meio do Workers AI
- Controles de escopo de rastreamento (crawl scope controls)
- Permite configurar profundidade de rastreamento (depth), limite de páginas e inclusão/exclusão de padrões de URL
- Descoberta automática de páginas (automatic page discovery)
- Descobre URLs automaticamente com base em sitemap, links das páginas ou ambos
- Rastreamento incremental (incremental crawling)
- Usa os parâmetros
modifiedSince e maxAge para pular páginas que não mudaram, reduzindo tempo e custo
- Modo estático (static mode)
- Com
render: false, busca apenas o HTML estático sem iniciar o navegador, permitindo rastreamento rápido de sites estáticos
- Bot com bom comportamento (well-behaved bot)
- Segue as diretrizes de robots.txt e também reconhece a configuração de crawl-delay
Casos de uso e documentação de referência
- Esse endpoint é útil para coleta de dados para treinamento de modelos, criação de pipelines de RAG e pesquisa e monitoramento de conteúdo de sites
- Os usuários podem consultar a documentação do endpoint crawl para configuração
- Ao definir seu próprio site como alvo de rastreamento, é preciso revisar as boas práticas de robots.txt e sitemap
Planos disponíveis
- Disponível nos planos Workers Free e Paid
5 comentários
Usei rapidinho e parece que não consegue furar bloqueio de bots; por enquanto, acho que vou continuar preferindo apify ou zyte.. hehe
Isso também passa pelo recurso de bloqueio de bots da Cloudflare?
Estão vendendo tanto a lança quanto o escudo??
Parece meio estranho haha
É o começo do Banco Imobiliário para todo mundo kkk
Uma habilidade que bloqueia alguma carta, que anula alguma habilidade especial...
kkkkkk, isso é meio engraçado
Comentários do Hacker News
Pela minha experiência, isso não funciona em páginas protegidas pela Cloudflare
Infelizmente, acaba parecendo que eles criam o problema e depois vendem a solução
Surpreende que a Cloudflare não hospede uma versão pré-raspada dos sites que usam seu proxy
Por exemplo, poderiam oferecer algo como https://www.example.com/cdn-cgi/cached-contents.json, e como o conteúdo já está em cache, não deveria ser necessário passar por um serviço ou API de scraping
Claro, deve haver motivos para não fazer isso, mas ainda assim é surpreendente que não seja uma opção padrão
Até daria para colocar controle de acesso, mas isso acabaria virando uma nova API complexa de CDN que ninguém pediu, além de trazer problemas legais
A distância entre um “JSON conveniente” e “entregar o site inteiro para scrapers de IA” é mínima
Se a conversão for feita apenas sob demanda, dá para reduzir requisições ao servidor de origem sem perder eficiência de cache
Quando eu trabalhava com CDN, usávamos second hit caching para melhorar a taxa de acerto — ou seja, só armazenávamos em cache a partir da segunda requisição
Se você ativar o recurso Markdown for Agents, quando um sistema de IA solicitar
text/markdown, o HTML será convertido em Markdown em tempo realA Cloudflare vender proteção contra scraping e ao mesmo tempo vender scraping faz a empresa parecer crime organizado
Só conseguem fazer isso por causa da influência que têm sobre a internet como um todo
O DNS serve para coleta de dados e para construir uma ‘boa imagem’
Se o publisher estiver atrás da Cloudflare e uma empresa de IA quiser os dados, ela acabaria pagando para acessar via Cloudflare
O principal público-alvo não são usuários comuns, e sim empresas de IA
/crawlrespeita orobots.txtOu seja, URLs proibidas para crawling aparecem na resposta com
"status": "disallowed"Expor um crawl endpoint estruturado parece uma evolução natural do
robots.txte dositemapSe mais sites oferecessem esse tipo de ponto de entrada legível por máquina, a indexação seria muito mais eficiente
Hoje há muito desperdício porque os crawlers ficam redescobrindo a mesma estrutura repetidamente
Eu prefiro projetar APIs centradas em humanos e deixar os provedores de LLM otimizarem em cima disso
HTML e DOM são, por natureza, estruturas para leitura por máquinas
Não precisamos inventar algo novo; basta usar corretamente as tecnologias que já existem
Ela pode ser explorada para mostrar uma página normal para pessoas e outra diferente para bots
Poderia ter utilidade para arquivamento da web, então é uma pena não haver suporte ao formato WARC
Seria útil para jornalistas e pesquisadores
O servidor de origem ainda pode detectar e bloquear requisições de Browser Rendering da Cloudflare
Dá para identificar isso pelo cabeçalho
CF-Workere filtrar por regras de WAF ou middlewarePorém, essas requisições vêm do ASN 13335 da Cloudflare e têm bot score baixo, então defesas simples baseadas só em pontuação não funcionam
No fim, limitação de taxa no nível da aplicação e análise de comportamento são mais eficazes
Existe um conflito estrutural, mas é parecido com o caso de mecanismos de busca que oferecem ferramentas para webmasters
robots.txt, então essa é a forma mais simplesFiquei curioso para saber se esse crawler opera antes ou depois da lógica de bloqueio de bots
Eu gostaria de poder oferecer uma versão bem rastreável do meu site
Se dessem essa opção ao administrador do site, os crawlers poderiam acessar pagando apenas o custo de tráfego
Talvez até desse para implementar isso rodando um job de crawl no próprio site e servindo o resultado em um subdomínio
static.Se o site for estático, basta renderizar em HTML e hospedar; se for dinâmico, é questionável qual seria o valor de um snapshot
Adicionar cache talvez seja uma abordagem melhor
A Cloudflare parece estar ficando com todos os recursos legais ultimamente
Fico me perguntando o que a AWS está fazendo
Esse recurso realmente impressiona
A Cloudflare está se movendo com antecedência na direção do futuro