Cloudflare lança o /crawl, com suporte para rastrear um site inteiro com uma única chamada de API

(developers.cloudflare.com)

11 pontos por GN⁺ 2026-03-11 | 5 comentários | Compartilhar no WhatsApp

A Cloudflare disponibilizou em beta aberto o novo endpoint /crawl do Browser Rendering, que permite rastrear um site inteiro com uma única chamada de API
Ao enviar uma URL inicial, o sistema navega automaticamente pelas páginas, faz a renderização com navegador headless e retorna os resultados em HTML, Markdown e JSON
Oferece vários recursos, como saída JSON estruturada com base no Workers AI, controles de escopo como profundidade de rastreamento, limite de páginas e padrões com curingas, além de rastreamento incremental e modo estático
Segue as regras de robots.txt e também oferece suporte a crawl-delay para evitar tráfego anormal
Pode ser usado para treinamento de modelos, criação de pipelines de RAG e pesquisa e monitoramento de conteúdo em todo o site

Visão geral do endpoint /crawl

O endpoint /crawl recém-adicionado ao serviço Browser Rendering da Cloudflare oferece a capacidade de explorar um site inteiro e coletar conteúdo com uma única chamada de API
- O usuário envia uma URL inicial, e o sistema segue automaticamente os links, renderiza as páginas e retorna os resultados
- O formato de retorno pode ser escolhido entre HTML, Markdown e JSON estruturado
Esse recurso está disponível em beta aberto (open beta) e pode ser usado nos planos Workers Free e Paid
As tarefas de rastreamento são executadas de forma assíncrona (asynchronous)
- Ao enviar a URL, o usuário recebe um job ID, e depois pode consultar os resultados quando o processamento terminar
- As páginas são processadas sequencialmente, e os resultados concluídos podem ser verificados gradualmente

Principais recursos

Suporte a múltiplos formatos de saída
- Retorna resultados em vários formatos, como HTML, Markdown e JSON
- O formato JSON é fornecido como dados estruturados por meio do Workers AI
Controles de escopo de rastreamento (crawl scope controls)
- Permite configurar profundidade de rastreamento (depth), limite de páginas e inclusão/exclusão de padrões de URL
Descoberta automática de páginas (automatic page discovery)
- Descobre URLs automaticamente com base em sitemap, links das páginas ou ambos
Rastreamento incremental (incremental crawling)
- Usa os parâmetros modifiedSince e maxAge para pular páginas que não mudaram, reduzindo tempo e custo
Modo estático (static mode)
- Com render: false, busca apenas o HTML estático sem iniciar o navegador, permitindo rastreamento rápido de sites estáticos
Bot com bom comportamento (well-behaved bot)
- Segue as diretrizes de robots.txt e também reconhece a configuração de crawl-delay

Casos de uso e documentação de referência

Esse endpoint é útil para coleta de dados para treinamento de modelos, criação de pipelines de RAG e pesquisa e monitoramento de conteúdo de sites
Os usuários podem consultar a documentação do endpoint crawl para configuração
Ao definir seu próprio site como alvo de rastreamento, é preciso revisar as boas práticas de robots.txt e sitemap

Planos disponíveis

Disponível nos planos Workers Free e Paid

5 comentários

hmmhmmhm 2026-03-11

Usei rapidinho e parece que não consegue furar bloqueio de bots; por enquanto, acho que vou continuar preferindo apify ou zyte.. hehe

xguru 2026-03-11

Isso também passa pelo recurso de bloqueio de bots da Cloudflare?
Estão vendendo tanto a lança quanto o escudo??
Parece meio estranho haha

eoeoe 2026-03-12

É o começo do Banco Imobiliário para todo mundo kkk
Uma habilidade que bloqueia alguma carta, que anula alguma habilidade especial...

cnaa97 2026-03-11

kkkkkk, isso é meio engraçado

GN⁺ 2026-03-11

Comentários do Hacker News

Pela minha experiência, isso não funciona em páginas protegidas pela Cloudflare
Infelizmente, acaba parecendo que eles criam o problema e depois vendem a solução
- Talvez funcione bem se só precisar passar pela proteção contra bots da Azure
Surpreende que a Cloudflare não hospede uma versão pré-raspada dos sites que usam seu proxy
Por exemplo, poderiam oferecer algo como https://www.example.com/cdn-cgi/cached-contents.json, e como o conteúdo já está em cache, não deveria ser necessário passar por um serviço ou API de scraping
Claro, deve haver motivos para não fazer isso, mas ainda assim é surpreendente que não seja uma opção padrão
- Expor esse tipo de dump de cache destruiria completamente as premissas de privacidade e direitos autorais do conteúdo original
  Até daria para colocar controle de acesso, mas isso acabaria virando uma nova API complexa de CDN que ninguém pediu, além de trazer problemas legais
  A distância entre um “JSON conveniente” e “entregar o site inteiro para scrapers de IA” é mínima
- Converter para JSON consome CPU, e armazenar o resultado duplica o espaço de cache
  Se a conversão for feita apenas sob demanda, dá para reduzir requisições ao servidor de origem sem perder eficiência de cache
  Quando eu trabalhava com CDN, usávamos second hit caching para melhorar a taxa de acerto — ou seja, só armazenávamos em cache a partir da segunda requisição
- Não é exatamente a mesma coisa, mas a Cloudflare já oferece algo parecido
  Se você ativar o recurso Markdown for Agents, quando um sistema de IA solicitar text/markdown, o HTML será convertido em Markdown em tempo real
- Na verdade, é possível que internamente eles já façam algo assim, entregando conteúdo público com base em cache
- Ainda assim, isso pode funcionar para sites simples, mas sites complexos como SPAs ainda precisam de um serviço de scraping com renderização em navegador
A Cloudflare vender proteção contra scraping e ao mesmo tempo vender scraping faz a empresa parecer crime organizado
Só conseguem fazer isso por causa da influência que têm sobre a internet como um todo
- Não é bem assim. Está explicado na documentação oficial
- O DNS gratuito é só uma parte da história; o verdadeiro poder está nos serviços de cache, roteamento e proteção contra DDoS
  O DNS serve para coleta de dados e para construir uma ‘boa imagem’
- Eles não venderam simplesmente proteção contra scraping, e sim proteção contra DDoS na web
- A Cloudflare parece querer atuar como intermediária entre publishers e empresas de IA
  Se o publisher estiver atrás da Cloudflare e uma empresa de IA quiser os dados, ela acabaria pagando para acessar via Cloudflare
  O principal público-alvo não são usuários comuns, e sim empresas de IA
- O endpoint /crawl respeita o robots.txt
  Ou seja, URLs proibidas para crawling aparecem na resposta com "status": "disallowed"
Expor um crawl endpoint estruturado parece uma evolução natural do robots.txt e do sitemap
Se mais sites oferecessem esse tipo de ponto de entrada legível por máquina, a indexação seria muito mais eficiente
Hoje há muito desperdício porque os crawlers ficam redescobrindo a mesma estrutura repetidamente
- Se tivéssemos continuado usando REST, provavelmente haveria muito menos desperdício na indexação
  Eu prefiro projetar APIs centradas em humanos e deixar os provedores de LLM otimizarem em cima disso
- Na verdade, o HTML semântico já cumpre esse papel
  HTML e DOM são, por natureza, estruturas para leitura por máquinas
  Não precisamos inventar algo novo; basta usar corretamente as tecnologias que já existem
- Quem lucra com crawling ineficiente são apenas as empresas de soluções anti-bot
- Mas esse tipo de estrutura também pode piorar ataques à cadeia de suprimentos
  Ela pode ser explorada para mostrar uma página normal para pessoas e outra diferente para bots
- No fim, mostrar conteúdo diferente para crawlers e para pessoas cria um problema fundamental
Poderia ter utilidade para arquivamento da web, então é uma pena não haver suporte ao formato WARC
Seria útil para jornalistas e pesquisadores
O servidor de origem ainda pode detectar e bloquear requisições de Browser Rendering da Cloudflare
Dá para identificar isso pelo cabeçalho CF-Worker e filtrar por regras de WAF ou middleware
Porém, essas requisições vêm do ASN 13335 da Cloudflare e têm bot score baixo, então defesas simples baseadas só em pontuação não funcionam
No fim, limitação de taxa no nível da aplicação e análise de comportamento são mais eficazes
Existe um conflito estrutural, mas é parecido com o caso de mecanismos de busca que oferecem ferramentas para webmasters
- Eles seguem o robots.txt, então essa é a forma mais simples
Fiquei curioso para saber se esse crawler opera antes ou depois da lógica de bloqueio de bots
- Opera antes — veja a documentação oficial
Eu gostaria de poder oferecer uma versão bem rastreável do meu site
Se dessem essa opção ao administrador do site, os crawlers poderiam acessar pagando apenas o custo de tráfego
Talvez até desse para implementar isso rodando um job de crawl no próprio site e servindo o resultado em um subdomínio static.
- Mas não entendo muito bem para que isso serviria
  Se o site for estático, basta renderizar em HTML e hospedar; se for dinâmico, é questionável qual seria o valor de um snapshot
  Adicionar cache talvez seja uma abordagem melhor
A Cloudflare parece estar ficando com todos os recursos legais ultimamente
Fico me perguntando o que a AWS está fazendo
Esse recurso realmente impressiona
A Cloudflare está se movendo com antecedência na direção do futuro