6 pontos por GN⁺ 2025-07-02 | 5 comentários | Compartilhar no WhatsApp
  • A empresa anunciou um novo serviço que permite aos proprietários de conteúdo cobrar pelo acesso de crawlers de IA
  • Criadores de conteúdo passam a ter três opções: permitir gratuitamente, bloquear totalmente ou autorizar acesso pago
  • A cobrança funciona com base na resposta padrão HTTP 402 Payment Required, e a Cloudflare fornece a infraestrutura de pagamento e liquidação
  • Crawlers e proprietários de conteúdo garantem transparência e segurança por meio de autenticação e pagamento programáticos
  • O serviço começa em beta privado e, no futuro, deve expandir o suporte a diversos casos de uso e cobrança dinâmica

Mudanças no ambiente de consumo por IA

  • Muitos publicadores, criadores de conteúdo e donos de sites até agora só podiam escolher entre duas opções extremas para crawlers de IA: liberar todo o acesso ou bloquear tudo
  • A Cloudflare adota como princípio fortalecer o controle dos proprietários de conteúdo, buscando um ambiente em que seja possível bloquear todos os crawlers de IA, liberá-los gratuitamente ou permitir acesso seletivo apenas aos crawlers desejados
  • Em conversas com centenas de empresas de mídia, publishers e grandes plataformas sociais, a empresa confirmou que existe uma forte demanda por permitir acesso a crawlers de IA em troca de remuneração
  • Antes, era necessário negociar individualmente com cada crawler para liberar acesso, mas isso era praticamente inviável para sites menores por falta de escala e poder de negociação

Introdução do modelo 'pay per crawl'

  • Além da escolha extrema entre grátis ou bloqueado, a Cloudflare propõe uma terceira opção: cobrar pelo acesso
  • Com isso, proprietários de conteúdo passam a poder monetizar ativos digitais em escala de internet
  • A base técnica central é o quase esquecido código de status HTTP 402 Payment Required: se o crawler sinalizar intenção de pagar, o conteúdo é entregue com 200 OK; caso contrário, a resposta 402 informa o preço
  • A Cloudflare atua como Merchant of Record, assumindo o processamento dos pagamentos e a infraestrutura técnica

Poder de ajuste do publisher e política de preços

  • O publisher pode definir um preço fixo para o site inteiro
    • Permitir (oferta gratuita)
    • Cobrar (fornecimento mediante pagamento no valor definido)
    • Bloquear (sem acesso e com indicação de possibilidade de relacionamento futuro)
  • Há suporte a políticas flexíveis por crawler, como exceções de cobrança, acesso gratuito e negociações individuais
  • O recurso se integra às políticas de segurança da Cloudflare (WAF, gerenciamento de bots etc.), aplicando primeiro o firewall existente e depois as regras de pay per crawl

Protocolo de autenticação e pagamento: Web Bot Auth

  • O sistema foi projetado para que apenas crawlers específicos recebam autorização de pagamento e acesso, evitando falsificação de identidade de crawler (spoofing)
  • O crawler precisa gerar um par de chaves Ed25519, registrar um diretório de chave pública em formato JWK e enviar essas informações à Cloudflare
  • A identidade e a intenção de pagamento são comprovadas por cabeçalhos de assinatura de mensagem HTTP (Signature-Agent, Signature-Input, Signature)

Como funciona o acesso a conteúdo pago

  • Há suporte a dois protocolos
    • Reativo (descoberta primeiro): ao solicitar uma URL paga, o crawler recebe resposta 402 com o preço; se concordar, refaz a requisição com o cabeçalho crawler-exact-price
    • Proativo (intenção primeiro): já na primeira requisição, o crawler envia o teto de pagamento no cabeçalho crawler-max-price; se o valor estiver dentro do limite, recebe 200 OK com os detalhes da cobrança
  • A negociação de preço e a manifestação de intenção de pagamento são suportadas de forma programável

Liquidação e processamento financeiro

  • Operadores de crawler e proprietários de conteúdo precisam registrar informações de pagamento na conta da Cloudflare
  • A cada solicitação de pagamento autenticada e resposta 200 OK, um evento de cobrança é registrado; a Cloudflare faz a consolidação, cobra do crawler e repassa ao publisher

O início da mudança rumo à era dos agentes

  • O pay per crawl simboliza a evolução da tecnologia de controle de conteúdo online
  • Espera-se que isso ajude a proteger criadores e a expandir novos BM (modelos de negócio) por meio de uma forma programável de precificação de ativos
  • No futuro, há discussões sobre várias expansões, como cobrança dinâmica por tipo/caminho de conteúdo, precificação baseada no volume de tráfego de IA e gestão de licenças em larga escala
  • Com a adoção do HTTP 402, torna-se possível responder a um futuro em que IAs e agentes negociem programaticamente as condições de acesso a recursos digitais

Como começar

  • O recurso pay per crawl está sendo oferecido inicialmente em beta privado
  • Crawlers e criadores de conteúdo interessados podem entrar em contato por meio de um link de inscrição separado
  • A Cloudflare também oferece suporte a proteção contra DDoS, aceleração de acesso à internet, criação de aplicações de internet, bloqueio de hackers e implementação de Zero Trust

Informações adicionais e tendências relacionadas

  • Movimentos como o 'Content Independence Day' para bloquear rastreamento gratuito e a expansão das soluções de gerenciamento de robôs da Cloudflare seguem em andamento
  • Entre 2024 e 2025, a empresa divulgou crescimento de 18% no tráfego de crawlers de IA, com GPTBot subindo 305% e Googlebot 96%
  • Também foi introduzido simultaneamente um reforço de autenticação de crawlers por meio de assinaturas de mensagem baseadas em chave pública

5 comentários

 
kimjoin2 2025-07-02

Como vão distinguir se é um bot de IA ou não?

 
kimjoin2 2025-07-02

Independentemente de ser IA ou não, se a pessoa estiver realmente determinada, nem crawling eles conseguem detectar.

 
howudoin 2025-07-02

A Cloudflare quer ganhar dinheiro com isso
No fim, todo mundo que quer monetizar vai acabar indo para lá
o volume da Cloudflare vai crescer
e a qualidade dos dados vai piorar
Já é a mesma tendência que apareceu no Naver, Instagram e YouTube: todo lugar onde entra dinheiro acaba seguindo esse caminho

 
GN⁺ 2025-07-02
Comentários do Hacker News
  • Acho que esta é a forma de micropagamento que queríamos. A Coinbase apresentou recentemente uma biblioteca usando criptomoeda e o código de status 402, que é o x402 link do GitHub do x402

    • Acho que o modelo de negócios da web deveria ser assim, em vez de depender de intermediários de publicidade. O setor de adtech explorou nossos dados de forma permanente, poluiu a mídia e prejudicou a democracia. Espero que, em algumas décadas, percebamos o quão nocivo é o modelo atual de anúncios e possamos regular e punir essas empresas como fizemos com a Big Tobacco. O BAT da Brave também é uma boa tentativa, mas o x402 parece uma solução mais universal. Ainda assim, por causa da percepção negativa sobre criptomoedas e da forte influência do setor publicitário, não parece fácil que esse modelo se estabeleça

    • Eu não quero usar criptomoeda, não quero receber por conteúdo em criptomoeda, e também não quero pagar taxas a intermediários. Usar cripto para micropagamentos na prática parece mais uma forma de impulsionar o ecossistema cripto. Além disso, é difícil chegar a um consenso sobre qual moeda usar. Se cada site aceitar uma moeda diferente, ou se todo mundo tiver que aceitar apenas uma stablecoin, isso também fica difícil de controlar. A abordagem da Cloudflare é melhor. Nela, quem lucra é quem arca com o custo, sem cobrar do usuário comum. E também não usa criptomoeda

    • Espero estar errado, mas sinto que já perdemos a oportunidade dos micropagamentos. Se tivesse existido algo como o modelo de recarga pré-paga dos antigos feature phones, tipo “colocar R$ 10 na internet” e os sites irem descontando disso em micropagamentos, talvez tivesse se consolidado de verdade. Mas agora parece que passou o momento, porque implementar esse sistema e fazer o mercado inteiro aderir exigiria infraestrutura e consenso demais

    • Essa tecnologia me parece realmente interessante. Se entendi corretamente, fico curioso por que o protocolo não foi projetado para responder imediatamente quando recebe o endereço e o valor do pagamento. Se as tentativas seguintes ficassem bloqueadas até que fosse retornado um checksum do valor e do endereço da carteira, e se esse checksum pudesse ser verificado por terceiros, cada servidor não precisaria implementar sua própria lógica de verificação. Para criar de fato uma economia digital, seriam necessárias duas coisas: 1) que o conteúdo só pudesse ser consumido por quem o solicitou, sem possibilidade de cópia ou armazenamento; 2) que o conteúdo tivesse um sistema de reputação ou classificação atribuído por humanos. A primeira parte poderia ser resolvida com DRM ou criptografia homomórfica, e a segunda com agências de avaliação transformadas em DAO. Para participar da DAO como avaliador, seria possível compartilhar uma prova de histórico baseada em blockchain e fazer staking de uma criptomoeda cara (= licença), aumentando a confiança. Como num índice do BitTorrent, seria possível ligar conteúdo e avaliadores, eliminando também a publicidade intermediária. Se essa estrutura se completar, pessoas com especialização poderiam participar da criação de valor excluindo intermediários, e os humanos poderiam voltar ao centro da economia de conteúdo. Se o problema do pagamento duplicado por conteúdo for resolvido, cada pessoa poderia ser recompensada continuamente enquanto também desenvolve sua expertise offline. Por exemplo, ao procurar bons livros ou filmes, usamos avaliações da Amazon ou do Goodreads, mas hoje os provedores dessas notas não têm interesses proporcionais nisso. Se esse conteúdo de avaliação passasse a ter credibilidade institucional, como uma agência avaliadora, o valor de cada obra individual também poderia aumentar. Todos seriam incentivados a preservar a própria reputação

    • Esse conceito em si não é novo. Eu mesmo criei em 2018 um projeto chamado ln-paywall, que usava o código de status 402

  • Acho que essa abordagem está completamente errada. A Cloudflare basicamente só está dizendo “façam crawling como antes, mas agora paguem mais”, sem oferecer valor proporcional em troca. Crawling não é uma vantagem competitiva para empresas de IA nem para novos motores de busca. É só um custo e uma distração. O racional seria cooperarem compartilhando infraestrutura. Em vez de cada empresa acessar os sites separadamente, o ideal seria um único crawler visitar todos os sites, e as empresas contribuírem proporcionalmente às URLs que correspondem aos seus próprios filtros. Em vez de múltiplos tráfegos, haveria um único crawler, e as regras do robots.txt seriam impostas técnica e contratualmente; assim, conteúdo não desejado não seria fornecido, e para contornar isso seria necessário manter um crawler próprio, o que teria um custo significativo. Mesmo adicionando pagamento a isso, ainda assim provavelmente se acabaria pagando por incontáveis páginas ruins que ninguém viu antes, então o valor seria baixo. Nessa alternativa, para empresas de IA ou mecanismos de busca, o crawling seria mais barato e simples; para os sites, reduziria muito a carga e aumentaria a eficácia do bloqueio. Mas a Cloudflare só vem com um “paguem”, o que parece pouco imaginativo e pouco convincente

    • Acho que, para ver a estrutura de incentivos correta aqui, é preciso olhar para o outro lado do mercado. O problema dos produtores de conteúdo não é que haja muito tráfego para seus sites, e sim que eles não recebem uma compensação adequada por esse tráfego. Se oito empresas visitassem todas as páginas do meu site dez vezes por dia, mas eu recebesse uma remuneração a preço de mercado, não haveria problema algum. Aí sim as oito empresas teriam incentivo para cooperar e consolidar o crawling, porque os custos deixariam de ser externalizados. Essa abordagem é, na verdade, mais racional para todos

    • O Common Crawl na verdade deveria cumprir esse papel, mas ironicamente, como startups de IA têm sugado esses dados com tanta ganância, recentemente a carga ficou tão pesada que praticamente se tornou inutilizável. Por esse tipo de problema, há espaço para um mercado de terceirização de web crawling, e do ponto de vista das empresas terceirizar crawlers pode ser vantajoso de várias maneiras. Claro, ainda não está claro se isso representa uma necessidade grande o suficiente para formar um mercado relevante, mas é evidente que existe demanda por acesso adequado a dados da web e por capacidade de crawling

    • Ao contrário da opinião de que web crawling não é uma vantagem competitiva para empresas de IA, a capacidade de refletir rapidamente informações recentes ou fontes específicas é claramente um diferencial. O problema é que, quando essas empresas pegam o conteúdo dos sites, não pagam nada aos sites e também não trazem tráfego de volta, destruindo assim o ecossistema da web. Especialmente do ponto de vista do site, o valor retornado é zero mesmo quando bots de IA leem suas informações

    • Mesmo que o tráfego de crawling pagasse só alguma coisa, isso já resolveria os custos de infraestrutura. Mesmo no passado, era raro sites caírem por causa de tráfego massivo. Hoje em dia, ou 1) cada vez mais sites bloqueiam diretamente bots, scrapers etc., ou 2) os que não conseguem fazer isso (porque o controle de acesso é difícil ou porque não têm modelo de receita) acabam sendo bombardeados. Se nessa estrutura os sites realmente recebessem dinheiro, pelo menos a carga causada por tráfego excessivo de bots seria coberta, e talvez até sobrasse algo além disso

    • Ainda assim, acho que esse tipo de estrutura de custos poderia funcionar como incentivo direto à cooperação

  • No fim, é por isso que o Google continua com vantagem também em IA. A maioria quer que o Googlebot faça crawling de seus sites. Isso gera tráfego, e o Google usa esse índice também para treinar IA. Pode ser monopolista, mas me parece vantajoso para os dois lados. Mas empresas como OpenAI, Anthropic e Meta, que só fazem crawling sem oferecer qualquer compensação, dificilmente serão bem-vindas nos meus sites. Por isso acho que essa política da Cloudflare veio na hora certa. Se ela funcionar, também será uma oportunidade enorme para a Cloudflare

    • A “AI Overview” do Google está derrubando drasticamente a taxa de cliques. Antes, a cada 2 páginas rastreadas pelo Google vinha 1 visitante; há 6 meses era 6:1, e agora é 18:1. O que mudou foram as AI Overviews. Com a OpenAI é ainda pior: há 6 meses era 250:1, agora é 1.500:1, ou seja, a IA está interceptando quase todo o tráfego que iria para os links originais. (Referência no Twitter: https://twitter.com/ethanhays/status/1938651733976310151)

    • Como startup, eu na verdade quero que meu site seja rastreado por IA. Quando as pessoas perguntarem ao ChatGPT “o que é a $CompanyName”, quero que os pontos fortes e a mensagem central da nossa empresa estejam refletidos corretamente. Conteúdo tradicional de SEO também pode ser usado como dado de treinamento para IA. Se você pedir para uma ferramenta de IA resumir os pontos fortes e fracos da web, listas como “top 10 tools for X”, publicadas pelas próprias empresas em seus blogs, acabam frequentemente virando fontes. O mesmo vale para grandes organizações, como órgãos de turismo, que querem espalhar sua visão de mundo de forma persuasiva

    • Você mencionou que OpenAI, Anthropic e Meta fazem crawling de conteúdo escrito por humanos sem oferecer compensação alguma, mas na verdade há casos em que órgãos governamentais ou grandes empresas se beneficiam de serem rastreados. Por exemplo, se uma IA global responder à pergunta “como posso ver cangurus?” recomendando um zoológico da Nova Zelândia em vez da Austrália, isso seria um problema. É muito importante que a informação correta esteja refletida nos modelos de IA, porque isso permite influenciar um público amplíssimo

    • O Google também tem projetos como o Google Books, então outras empresas ocidentais não conseguem garantir material de treinamento nessa escala, enquanto empresas chinesas não costumam se preocupar tanto com direitos autorais; esse é um grande diferencial

    • Não acho necessariamente que o Google esteja em vantagem em IA. Do ponto de vista do consumidor, a AI Overview do Google erra de forma absurda com muita frequência. Em termos técnicos, talvez ofereça APIs, qualidade ou recursos excelentes, mas a principal experiência de IA visível ao usuário comum não é boa

  • A tecnologia em si é bacana, mas não gosto da ideia de que todos os crawlers tenham que usar a Cloudflare. Lembro que os desenvolvedores do Google Chrome já chegaram a propor uma Web Monetization API, e uma estrutura de pagamento descentralizada evitaria dependência de uma empresa específica

    • Eu não confio muito na Cloudflare. Já faz muito tempo que tento colocar meu leitor de RSS na lista de Verified Bots deles, e é tão nebuloso que nem dá para saber para onde vai o formulário de suporte
  • É uma boa direção, mas ainda faltam muitas coisas. A estrutura ideal seria cobrar tarifas diferentes conforme a finalidade do uso. Por exemplo, se alguém rastreia um site “para pesquisa”, isso deveria custar quase nada. Já “para treinamento de IA que será comercializado” deveria ser muito caro. É uma pena termos chegado ao ponto de pensar nisso, mas o modelo antigo está praticamente inviável, então na prática não dá mais para manter tudo como uma grande abertura gratuita sem compensação. Na verdade, acho que toda a humanidade ganharia se alguém criasse uma biblioteca mundial com toda a informação gratuita, acompanhada de um sistema de compensação de propriedade intelectual compatível com isso. Estamos numa era em que a maioria das limitações técnicas já foi superada, e mesmo assim continuamos presos a restrições de fato quase cartelizadas. Então, por enquanto, o raciocínio acaba sendo “nesse caso, então paguem” mesmo

    • Se isso acontecer, no fim muita gente interessada em lucro vai encontrar brechas e abusar delas, ou revender dados contra a intenção original, ou invadir o sistema. Por exemplo, mesmo que se diga “uso para pesquisa é gratuito”, basta alguém afirmar “estou aqui pesquisando!” enquanto, na prática, vende os dados para afiliadas e lucra com isso

    • Mesmo que essa “biblioteca com todos os dados compartilhados gratuitamente” pareça tecnicamente viável, o ponto central é a sustentabilidade econômica. Se o custo de acesso ficar baixo demais, pode haver cópia infinita ou abuso excessivo, e o sistema entra em colapso. Um certo nível de limitação, na verdade, cria incentivos mais favoráveis para cooperação e melhoria da qualidade. (Como a estratégia r/K na biologia.) Quando há limitação, o valor por unidade aumenta, o que pode favorecer a expansão de informações e serviços de maior qualidade. No fim, as bibliotecas públicas offline talvez estivessem próximas desse ponto ótimo

  • Acho que no HN estão subestimando esse tema, mas é uma mudança enorme. 20% da web inteira está na Cloudflare. Se esse recurso for oferecido a todos os clientes, até mesmo a quem mantém blogs gratuitos, isso criaria uma estrutura interessante em que até donos de blogs poderiam receber dinheiro

    • Na prática, provavelmente os blogueiros receberiam frações de 0,1 centavo, e suspeito que a Cloudflare ficaria com a maior parte da receita. No fim, esse sistema também acabaria sendo aplicado a todos, e poderia surgir uma rede fechada tipo “Cloudflare-Net”, onde não se lê nada sem verificação de cartão de crédito. O mercado também poderia se fragmentar entre infraestruturas concorrentes como Akamai, AWS etc. Para modelos de IA, o custo de crawling aumentaria, e esse peso acabaria sendo repassado ao usuário final (= todos nós). Ao mesmo tempo, empresas pequenas teriam mais dificuldade para criar algo novo. A disponibilidade média de informações para modelos de IA também cairia. No fim, isso se conecta ao debate sobre neutralidade da rede: uma web que era pura e aberta vai gradualmente perdendo sua abertura original à medida que passa a depender de condições de pagamento ou gatekeeping corporativo. Não é uma notícia tão boa para a web inteira quanto parece à primeira vista
  • Tenho receio de que, em breve, usar o navegador passe a significar fazer micropagamentos o tempo todo, e a internet como a conhecemos desapareça

    • Eu já perco um tempão por causa da detecção de bots da Cloudflare. Uso Chrome com uBlock, e logo mais talvez eu veja até tela pedindo pagamento. Quando aparece CAPTCHA, eu simplesmente deixo o site de lado e vou para outro

    • Na verdade, isso talvez ainda seja melhor do que ficar sofrendo com dezenas de anúncios e paywalls

  • Também é preciso pensar nos casos em que crawlers de IA são usados como ferramentas de assistência para navegação web por pessoas com deficiência. Funções de automação de interface já esbarram bastante em vários procedimentos de autenticação

    • O operador do site pode permitir esses crawlers. O problema de agentes maliciosos se passarem por benignos já existe hoje, como quando se quer permitir o crawler da web do Google mas bloquear o rastreamento para treinamento do Gemini, então é necessário algum tipo de solução técnica para isso

    • Não entendo exatamente o que significa dizer que um usuário individual pode usar um crawler para “navegar” na web. Um navegador com IA não é automaticamente um crawler. Um crawler é uma ferramenta para coletar em massa um site inteiro

    • Já existe a ARIA como tecnologia padrão de acessibilidade, e os principais sites já a implementam. Para acessibilidade, idealmente nem deveria ser preciso usar IA, e ela também não deveria ser usada para isso

  • Antigamente, eu via como “empresa boa” aquela que fornecia busca útil na internet. Hoje, parece que a Cloudflare faz “coisas boas” como defesa contra DDoS, CDN e proteção contra IA. Mas é bem possível que, no futuro, eu também passe a detestar esse tipo de empresa

    • A Cloudflare não é uma empresa unanimemente odiada, mas quanto maior sua influência, maior a tensão. A Bluesky disse “the company is tomorrow's adversary”, e a Cloudflare também está crescendo como uma poderosa “adversária”

    • Meus amigos da vida real já odeiam a Cloudflare

    • Dizem que ela faz “coisas boas” na internet, mas por causa da fricção de autenticação e verificação da Cloudflare eu acabo usando LLMs com mais frequência do que o Stack Exchange

  • Em linhas gerais, concordo com a ideia, mas as big techs vão encontrar rotas alternativas para obter dados de todo jeito (especialmente o Google, sob o pretexto de ser mecanismo de busca), e se isso realmente funcionar, há grande chance de que o custo acabe sendo repassado a nós, usuários finais

    • Mesmo que o Google rastreie dados de graça sob a justificativa de busca, e se numa segunda etapa o Google tivesse que pagar tarifas por página? Seria possível configurar por artigo áreas inacessíveis ao crawler com preços diferentes, de modo que notícias principais cobrassem uma tarifa alta, enquanto informações gerais, treinamento de LLM ou pesquisa interna pudessem ter licenças distintas com preços explícitos por finalidade. Se a Cloudflare atuar como hub intermediário para milhões de sites, isso parece perfeitamente viável

    • Mais publishers vão acabar bloqueando até o Googlebot. O motivo é que o próprio Google já está tirando receita dos publishers com respostas de busca baseadas em IA