3 pontos por GN⁺ 2025-07-03 | 2 comentários | Compartilhar no WhatsApp
  • Cloudflare introduziu uma nova configuração para bloquear por padrão raspadores de dados de A.I.
  • Os proprietários de sites terão o rastreamento de bots de IA bloqueado automaticamente a menos que concedam permissão
  • A empresa reforça seu papel na proteção de conteúdo da internet em meio à coleta de dados de alta qualidade necessários para treinar modelos de IA
  • Criadores de conteúdo e veículos de mídia continuam expressando preocupações sobre o uso não autorizado de dados
  • Disputas legais entre empresas de IA e donos de conteúdo estão se tornando cada vez mais frequentes

Cloudflare introduz bloqueio padrão para raspadores de dados de IA

  • A Cloudflare é uma empresa de tecnologia que fornece serviços de gerenciamento de tráfego online e segurança
  • Com o aumento recente do fenômeno de empresas de IA coletando dados de sites sem autorização, a Cloudflare introduziu uma nova configuração baseada em permissão que permite aos clientes bloquear automaticamente o acesso de raspadores de dados de IA

A nova política padrão e o que muda

  • Com esse novo recurso, os sites podem bloquear por padrão o rastreamento automático (scraping) de bots de IA
  • Se a coleta de dados for necessária, o proprietário do site deve conceder manualmente a permissão de acesso separadamente
  • Antes, bots que a Cloudflare não considerava hackers ou agentes maliciosos podiam coletar livremente informações dos sites

Por que a Cloudflare mudou sua política

  • O CEO da Cloudflare, Matthew Prince, enfatizou que a medida busca "proteger o conteúdo original na internet e fortalecer os direitos dos publicadores na web"
  • Quando empresas de IA utilizam dados da internet sem autorização, surge o problema de reduzir o incentivo para que criadores de conteúdo produzam novos conteúdos
  • A rede da Cloudflare processa cerca de 20% do tráfego da internet no mundo
  • Como a atividade de rastreadores de IA na web aumentou rapidamente recentemente, a política foi adotada em resposta a isso

Dados de IA e o agravamento do conflito no setor

  • Está acirrada a competição entre OpenAI, Anthropic, Google e outras empresas pela coleta em larga escala de dados para desenvolver modelos de IA
  • Dados web de alta qualidade desempenham um papel central na sofisticação dos modelos de IA e na qualidade de seus resultados
  • Como resultado, operadores de sites, veículos de imprensa e detentores de direitos autorais protestam contra a coleta não autorizada de dados e a falta de compensação

Casos de expansão das disputas legais

  • Em junho de 2025, o Reddit processou a Anthropic e, em 2023, o The New York Times processou a OpenAI e a Microsoft, respectivamente, por uso não autorizado de dados de treinamento de IA e violação de direitos autorais
  • OpenAI e Microsoft negam essas alegações de violação de direitos autorais

Conclusão

  • A nova política de bloqueio padrão da coleta de dados para IA da Cloudflare tem impacto significativo sobre os critérios éticos e legais de acesso e uso de dados entre a indústria de IA e os proprietários de conteúdo
  • Essa mudança de política está se tornando um marco importante para estabelecer padrões de proteção dos direitos sobre conteúdo e de consentimento prévio dentro do ecossistema de IA.

2 comentários

 
GN⁺ 2025-07-03
Comentários do Hacker News
  • Um ponto que muita gente não percebe é que quase tudo o que fazemos online, até agora, só serviu para fornecer dados de treinamento gratuitos para empresas como OpenAI e Anthropic, enquanto os humanos que realmente criaram valor acabam deixados de lado. Acho que a direção da crítica está 100% correta, mas é difícil ver essa solução como algo inovador, e espero que surjam muito mais inovações para enfrentar esse parasitismo da IA.
    • Há quem diga que a Cloudflare e empresas parecidas, na verdade, estão estragando a liberdade da internet. Na prática, sites ficam lentos ou bloqueados com frequência demais sob a desculpa de autenticação, criando uma experiência de carregamento lenta como em 1998. Estamos entrando numa era em que só dá para usar normalmente navegadores que permitem que empresas de publicidade rastreiem e monetizem o usuário, e a crítica é que a Cloudflare não resolve o problema, apenas entra no meio para ganhar dinheiro e piora a qualidade da experiência geral da internet.
    • Eu escrevo online porque quero compartilhar minhas ideias, e fico satisfeito tanto se isso for usado como dado de treinamento para IA quanto se for lido por pessoas.
    • Eu acho 100% aceitável usar livremente dados públicos da internet para treinar IA. O que é absolutamente inaceitável é fazer crawling em velocidade tão alta que pequenos sites não consigam operar por causa da carga; vejo isso como uma verdadeira tragédia dos bens comuns.
    • Sou cético quanto à capacidade da Cloudflare de bloquear perfeitamente toda a raspagem de dados por IA. Na prática, esse tipo de medida provavelmente só vai tornar o crawling mais difícil e caro, impedindo que alguém raspe todas as páginas todos os dias e gere custo para os publicadores, mas, no fim, os dados devem acabar entrando em algum dataset de um jeito ou de outro.
  • Testei esse recurso e só consegui confirmar que o robots.txt muda automaticamente. Não tenho certeza se existe algum comportamento adicional. Foram adicionadas ao arquivo robots.txt configurações para bloquear vários bots e crawlers de IA.
    • Ao ver a linha User-agent: CCBot disallow: /, surgiu a dúvida se o CCBot (Common Crawl) é mesmo exclusivo para IA. O CCBot já vinha sendo bloqueado em vários robots.txt há muito tempo. Também fica a dúvida se o Common Crawl realmente pode controlar como o conteúdo é usado e, se o CC depende de fair use, se de fato tem direito de cobrar licenças ou autorizar usos secundários. Também há dúvida se os termos de uso de sites normalmente permitem que o operador relicencie conteúdo de terceiros (dos usuários) para fins de LLM e compartilhe receita.
    • A Cloudflare diz que está mudando o padrão para proteger conteúdo original, mas no aviso real do robots.txt há uma exceção que permite uso para "AI RAG (Retrieval Augmented Generation)"; isso soa estranho, porque o RAG prejudica a renda dos autores de forma muito mais direta e em tempo real do que o treinamento de modelos de linguagem.
    • Também há a percepção de que o Google acaba raspando dados ao mesmo tempo para indexação da web e para treinamento de IA, e no fim pode forçar uma escolha. Se o dono de um site tiver de abrir mão da visibilidade no Google Search para não cooperar com treinamento de IA, surge um dilema bem delicado.
    • Nos meus sites pessoais de hobby, se o user-agent contém bot e a requisição não for para robots.txt, humans.txt ou favicon.ico, eu respondo com status 444 (encerra a conexão imediatamente). A maioria dos mecanismos de busca eu trato com blackhole por bloco CIDR. Acho que devo ser o único fazendo isso desse jeito.
    • Há jornais que bloquearam não só crawlers de LLM, mas também o recurso de busca do ChatGPT; comparado a isso, a configuração da Cloudflare parece um padrão bem mais razoável.
  • Esta manchete pode induzir um pouco ao erro. No momento, sites que usam Cloudflare passaram a poder ativar rapidamente, em modelo opt-in, o bloqueio total de bots de IA, mas isso não é o padrão e não é aplicado automaticamente. O fato de a Cloudflare poder fazer algo assim em massa, se quiser, mostra como o poder dela é enorme.
    • Surgiu a pergunta se realmente não é o padrão, já que o post oficial no blog da Cloudflare menciona mudança na configuração padrão.
    • Agora existe uma relação hostil entre bots de IA e sites, e a Cloudflare está apenas reagindo a isso. Não seria a defesa contra DDoS algo no mesmo espírito?
    • Parece que a Cloudflare mais deixa a internet lenta do que oferece meios de defesa de verdade. Nunca demorei mais de meio dia para contornar um desafio deles. Acho que isso é só o primeiro passo para entrar no mercado intermediário voltado a AI SEO. Interpreto a essência da Cloudflare não como algo a favor dos sites, mas como uma tentativa de cobrar taxa no meio entre scrapers e publicadores. Odeio a Cloudflare.
  • O volume de dados do meu serviço via Cloudflare saltou de 20 GB para 100 GB em dois anos. O número de visitantes reais caiu para menos da metade, mas o tráfego só aumentou, então imagino que, do ponto de vista da Cloudflare, essa medida também sirva para reduzir custos de recursos.
    • Concordo que, em tráfego de grande escala, custo de banda fica caro.
  • No HN aparece com frequência reclamação de que tráfego de bots deixa sites lentos, mas, como operador de site, isso não faz muito sentido para mim. Se você já usa o cache da Cloudflare por padrão, a maior parte do tráfego deveria ser absorvida pelo cache e quase não haver carga no servidor. Além disso, CPU e banda não estão bem mais baratos hoje em dia? Fico curioso por que todo mundo está tão sensível a isso.
    • Eu também opero um site grande, com centenas de milhares de páginas em 10 idiomas, totalizando milhões de páginas, e chego perto de 1000 RPS. Quando crawlers de IA mandam 100 a 200 RPS ao mesmo tempo, distribuídos por vários IPs, eles martelam endpoints caros e as medidas antigas de bloqueio de robôs não dão conta, gerando um efeito parecido com DDoS.
    • Eu também já tive queda por causa de tráfego de IA. Mesmo usando cache em várias camadas, alguns endpoints públicos expostos sem autenticação não são cacheáveis, e, se eles forem martelados repetidamente, o site cai. Se milhões de páginas geram miss de cache ao mesmo tempo em pouco tempo, as requisições se acumulam e surgem erros; os erros levam a mais cache incompleto, criando um ciclo vicioso. Se o tráfego de IA continua batendo nesses endpoints, o problema persiste.
    • O próprio pressuposto de usar Cloudflare como padrão já é problemático. Será que chegamos a uma era em que isso virou requisito até para manter um site simples?
    • O problema de tráfego de IA que o pessoal mais aponta costuma se concentrar em crawlers que ficam martelando indefinidamente APIs do tipo “listar todos os posts por intervalo de datas”.
    • Eu também acho essa reação forte um pouco curiosa, mas entendo quem quer escapar de crawlers de IA em sites não otimizados. Entre as ferramentas relacionadas, a que parece ter se espalhado mais rápido é o Anubis checker link do github. Considerando que o tráfego de IA vem de crawlers distribuídos, sinto que software open source para limitação colaborativa deveria se tornar mais ativo. A web precisa mais de respostas no estilo do código HTTP 420 Enhance Your Calm link de referência.
  • Se empresas de IA usarem dados de vários sites sem permissão, a motivação para produzir conteúdo digital vai desaparecer. No fim, a própria estrutura de crescimento da IA acaba prejudicando outras atividades digitais e pode até destruir a web inteira. Ironicamente, para a IA, a própria web é a “presa”.
    • Como a taxa global de uso de bloqueadores de anúncios é de 30%, há quem ache que a lógica de prejuízo ao conteúdo digital é mais complexa.
    • Se aquilo que a IA quer fazer no fim das contas — várias interações com humanos e atividades econômicas — não acontecer, ela também vai acabar ficando sem recursos de dados.
    • Há a visão de que, assim como o capitalismo passou a ter as pessoas como principal alvo de exploração, a IA estruturalmente está seguindo caminho parecido.
  • A Cloudflare pode pegar bots e crawlers de IA que respeitam robots.txt e agem honestamente usando regras pré-configuradas, mas já existem empresas como a Perplexity disfarçando tráfego, então fica a dúvida se esse bloqueio acaba prejudicando só bots honestos e incentivando mais ocultação. Esse tipo de corrida armamentista já existe há 20 anos, não é novidade. Com os sinais globais da Cloudflare, bot scoring e fingerprinting de tráfego, a estrutura parece conseguir distinguir bem até bots de IA disfarçados. Também foi compartilhado um link explicando isso veja em blog.cloudflare.com
    • Em resposta à pergunta se regular apenas bots honestos e transparentes não aumentaria ainda mais o crawling disfarçado, a opinião é que essa disputa já acontece há mais de 20 anos e não é algo totalmente novo nem sem precedentes.
    • A opção Block AI Bots do Super Bot Fight Mode realmente removeu a maior parte do tráfego de bots, e a abordagem não dependia de robots.txt nem de user agent, mas da análise de padrões de tráfego. Por causa disso, meu próprio tool precisou de uma regra de exceção para funcionar.
    • A Cloudflare sabe muito bem como tornar o uso da internet bem difícil para usuários de que ela não gosta. Se você configurar o robots.txt para que bots não sejam classificados como maliciosos, ainda há alguma margem de permissão por site; fora isso, vai prevalecer o método próprio da Cloudflare.
    • Para a Cloudflare, bots de IA que fazem raspagem em massa são, na prática, difíceis de esconder, e podem ser identificados por vários sinais em nível de fingerprinting e de rede. Na prática, grandes empresas já se comunicam diretamente com a Cloudflare, então provavelmente existem vários meios possíveis de aviso e resposta.
  • Será que as principais empresas de IA realmente respeitam robots.txt? Talvez só alguns crawlers públicos façam isso; por baixo dos panos, há suspeita de que continuem rodando crawling de forma oculta. Já houve precedentes de uso ilegal de livros, imagens e dados de usuários coletados sem permissão.
    • Muitos crawlers pequenos também tentam se passar por grandes empresas para escapar de bloqueios, então é difícil distinguir.
    • Respeitar robots.txt é, no máximo, uma convenção; não existe obrigação legal ou técnica forte. Dá para colocar nos termos de uso uma cláusula exigindo respeito à política de robots.txt, mas o poder real disso é questionável.
    • Parte considerável desse tráfego talvez não seja raspagem direta por IA, mas casos em que um humano faz uma pergunta para a IA e ela então sai pesquisando a internet naquele momento. Fica a dúvida se isso deve entrar no escopo de robots.txt como um navegador de pesquisa ou apenas como indexação.
    • O papel de gatekeeper da Cloudflare não agrada muito, mas ela está numa posição em que pode de fato exercer influência sobre empresas de IA.
  • A lista atual de bots de IA bloqueados é bem curta link de referência
    • Pela explicação da Cloudflare, o Common Crawl (CCBot) também entra como AI Bot na opção de bloqueio. Mas o Common Crawl não é, de fato, um bot exclusivo para IA; é uma infraestrutura aberta de crawling link de referência
    • A Cloudflare observa uma quantidade enorme de tráfego da web, então a lista atual de bots detectados deve se concentrar nos que aparecem com mais frequência, e provavelmente continuará crescendo conforme outros forem descobertos. Talvez seja impossível bloquear todos os crawlers, mas, olhando para a internet como um todo, poucos lugares terão tanta capacidade quanto a Cloudflare para detectar bots.
    • Só esse bloqueio já deve reduzir o tráfego da maioria dos sites para menos da metade.
  • As principais evoluções da web — a cercadização da Web 2, a decepção da Web 3 e agora isto — parecem nos afastar cada vez mais do papel de comunidade e repositório de conhecimento. A qualidade e a tecnologia continuaram avançando, mas muita coisa também se perdeu no caminho.