11 pontos por GN⁺ 2026-03-11 | 5 comentários | Compartilhar no WhatsApp
  • A Cloudflare disponibilizou em beta aberto o novo endpoint /crawl do Browser Rendering, que permite rastrear um site inteiro com uma única chamada de API
  • Ao enviar uma URL inicial, o sistema navega automaticamente pelas páginas, faz a renderização com navegador headless e retorna os resultados em HTML, Markdown e JSON
  • Oferece vários recursos, como saída JSON estruturada com base no Workers AI, controles de escopo como profundidade de rastreamento, limite de páginas e padrões com curingas, além de rastreamento incremental e modo estático
  • Segue as regras de robots.txt e também oferece suporte a crawl-delay para evitar tráfego anormal
  • Pode ser usado para treinamento de modelos, criação de pipelines de RAG e pesquisa e monitoramento de conteúdo em todo o site

Visão geral do endpoint /crawl

  • O endpoint /crawl recém-adicionado ao serviço Browser Rendering da Cloudflare oferece a capacidade de explorar um site inteiro e coletar conteúdo com uma única chamada de API
    • O usuário envia uma URL inicial, e o sistema segue automaticamente os links, renderiza as páginas e retorna os resultados
    • O formato de retorno pode ser escolhido entre HTML, Markdown e JSON estruturado
  • Esse recurso está disponível em beta aberto (open beta) e pode ser usado nos planos Workers Free e Paid
  • As tarefas de rastreamento são executadas de forma assíncrona (asynchronous)
    • Ao enviar a URL, o usuário recebe um job ID, e depois pode consultar os resultados quando o processamento terminar
    • As páginas são processadas sequencialmente, e os resultados concluídos podem ser verificados gradualmente

Principais recursos

  • Suporte a múltiplos formatos de saída
    • Retorna resultados em vários formatos, como HTML, Markdown e JSON
    • O formato JSON é fornecido como dados estruturados por meio do Workers AI
  • Controles de escopo de rastreamento (crawl scope controls)
    • Permite configurar profundidade de rastreamento (depth), limite de páginas e inclusão/exclusão de padrões de URL
  • Descoberta automática de páginas (automatic page discovery)
    • Descobre URLs automaticamente com base em sitemap, links das páginas ou ambos
  • Rastreamento incremental (incremental crawling)
    • Usa os parâmetros modifiedSince e maxAge para pular páginas que não mudaram, reduzindo tempo e custo
  • Modo estático (static mode)
    • Com render: false, busca apenas o HTML estático sem iniciar o navegador, permitindo rastreamento rápido de sites estáticos
  • Bot com bom comportamento (well-behaved bot)
    • Segue as diretrizes de robots.txt e também reconhece a configuração de crawl-delay

Casos de uso e documentação de referência

  • Esse endpoint é útil para coleta de dados para treinamento de modelos, criação de pipelines de RAG e pesquisa e monitoramento de conteúdo de sites
  • Os usuários podem consultar a documentação do endpoint crawl para configuração
  • Ao definir seu próprio site como alvo de rastreamento, é preciso revisar as boas práticas de robots.txt e sitemap

Planos disponíveis

  • Disponível nos planos Workers Free e Paid

5 comentários

 
hmmhmmhm 2026-03-11

Usei rapidinho e parece que não consegue furar bloqueio de bots; por enquanto, acho que vou continuar preferindo apify ou zyte.. hehe

 
xguru 2026-03-11

Isso também passa pelo recurso de bloqueio de bots da Cloudflare?
Estão vendendo tanto a lança quanto o escudo??
Parece meio estranho haha

 
eoeoe 2026-03-12

É o começo do Banco Imobiliário para todo mundo kkk
Uma habilidade que bloqueia alguma carta, que anula alguma habilidade especial...

 
cnaa97 2026-03-11

kkkkkk, isso é meio engraçado

 
GN⁺ 2026-03-11
Comentários do Hacker News
  • Pela minha experiência, isso não funciona em páginas protegidas pela Cloudflare
    Infelizmente, acaba parecendo que eles criam o problema e depois vendem a solução

    • Talvez funcione bem se só precisar passar pela proteção contra bots da Azure
  • Surpreende que a Cloudflare não hospede uma versão pré-raspada dos sites que usam seu proxy
    Por exemplo, poderiam oferecer algo como https://www.example.com/cdn-cgi/cached-contents.json, e como o conteúdo já está em cache, não deveria ser necessário passar por um serviço ou API de scraping
    Claro, deve haver motivos para não fazer isso, mas ainda assim é surpreendente que não seja uma opção padrão

    • Expor esse tipo de dump de cache destruiria completamente as premissas de privacidade e direitos autorais do conteúdo original
      Até daria para colocar controle de acesso, mas isso acabaria virando uma nova API complexa de CDN que ninguém pediu, além de trazer problemas legais
      A distância entre um “JSON conveniente” e “entregar o site inteiro para scrapers de IA” é mínima
    • Converter para JSON consome CPU, e armazenar o resultado duplica o espaço de cache
      Se a conversão for feita apenas sob demanda, dá para reduzir requisições ao servidor de origem sem perder eficiência de cache
      Quando eu trabalhava com CDN, usávamos second hit caching para melhorar a taxa de acerto — ou seja, só armazenávamos em cache a partir da segunda requisição
    • Não é exatamente a mesma coisa, mas a Cloudflare já oferece algo parecido
      Se você ativar o recurso Markdown for Agents, quando um sistema de IA solicitar text/markdown, o HTML será convertido em Markdown em tempo real
    • Na verdade, é possível que internamente eles já façam algo assim, entregando conteúdo público com base em cache
    • Ainda assim, isso pode funcionar para sites simples, mas sites complexos como SPAs ainda precisam de um serviço de scraping com renderização em navegador
  • A Cloudflare vender proteção contra scraping e ao mesmo tempo vender scraping faz a empresa parecer crime organizado
    Só conseguem fazer isso por causa da influência que têm sobre a internet como um todo

    • Não é bem assim. Está explicado na documentação oficial
    • O DNS gratuito é só uma parte da história; o verdadeiro poder está nos serviços de cache, roteamento e proteção contra DDoS
      O DNS serve para coleta de dados e para construir uma ‘boa imagem’
    • Eles não venderam simplesmente proteção contra scraping, e sim proteção contra DDoS na web
    • A Cloudflare parece querer atuar como intermediária entre publishers e empresas de IA
      Se o publisher estiver atrás da Cloudflare e uma empresa de IA quiser os dados, ela acabaria pagando para acessar via Cloudflare
      O principal público-alvo não são usuários comuns, e sim empresas de IA
    • O endpoint /crawl respeita o robots.txt
      Ou seja, URLs proibidas para crawling aparecem na resposta com "status": "disallowed"
  • Expor um crawl endpoint estruturado parece uma evolução natural do robots.txt e do sitemap
    Se mais sites oferecessem esse tipo de ponto de entrada legível por máquina, a indexação seria muito mais eficiente
    Hoje há muito desperdício porque os crawlers ficam redescobrindo a mesma estrutura repetidamente

    • Se tivéssemos continuado usando REST, provavelmente haveria muito menos desperdício na indexação
      Eu prefiro projetar APIs centradas em humanos e deixar os provedores de LLM otimizarem em cima disso
    • Na verdade, o HTML semântico já cumpre esse papel
      HTML e DOM são, por natureza, estruturas para leitura por máquinas
      Não precisamos inventar algo novo; basta usar corretamente as tecnologias que já existem
    • Quem lucra com crawling ineficiente são apenas as empresas de soluções anti-bot
    • Mas esse tipo de estrutura também pode piorar ataques à cadeia de suprimentos
      Ela pode ser explorada para mostrar uma página normal para pessoas e outra diferente para bots
    • No fim, mostrar conteúdo diferente para crawlers e para pessoas cria um problema fundamental
  • Poderia ter utilidade para arquivamento da web, então é uma pena não haver suporte ao formato WARC
    Seria útil para jornalistas e pesquisadores

  • O servidor de origem ainda pode detectar e bloquear requisições de Browser Rendering da Cloudflare
    Dá para identificar isso pelo cabeçalho CF-Worker e filtrar por regras de WAF ou middleware
    Porém, essas requisições vêm do ASN 13335 da Cloudflare e têm bot score baixo, então defesas simples baseadas só em pontuação não funcionam
    No fim, limitação de taxa no nível da aplicação e análise de comportamento são mais eficazes
    Existe um conflito estrutural, mas é parecido com o caso de mecanismos de busca que oferecem ferramentas para webmasters

    • Eles seguem o robots.txt, então essa é a forma mais simples
  • Fiquei curioso para saber se esse crawler opera antes ou depois da lógica de bloqueio de bots

  • Eu gostaria de poder oferecer uma versão bem rastreável do meu site
    Se dessem essa opção ao administrador do site, os crawlers poderiam acessar pagando apenas o custo de tráfego
    Talvez até desse para implementar isso rodando um job de crawl no próprio site e servindo o resultado em um subdomínio static.

    • Mas não entendo muito bem para que isso serviria
      Se o site for estático, basta renderizar em HTML e hospedar; se for dinâmico, é questionável qual seria o valor de um snapshot
      Adicionar cache talvez seja uma abordagem melhor
  • A Cloudflare parece estar ficando com todos os recursos legais ultimamente
    Fico me perguntando o que a AWS está fazendo

  • Esse recurso realmente impressiona
    A Cloudflare está se movendo com antecedência na direção do futuro