- Cloudflare introduziu uma nova configuração para bloquear por padrão raspadores de dados de A.I.
- Os proprietários de sites terão o rastreamento de bots de IA bloqueado automaticamente a menos que concedam permissão
- A empresa reforça seu papel na proteção de conteúdo da internet em meio à coleta de dados de alta qualidade necessários para treinar modelos de IA
- Criadores de conteúdo e veículos de mídia continuam expressando preocupações sobre o uso não autorizado de dados
- Disputas legais entre empresas de IA e donos de conteúdo estão se tornando cada vez mais frequentes
Cloudflare introduz bloqueio padrão para raspadores de dados de IA
- A Cloudflare é uma empresa de tecnologia que fornece serviços de gerenciamento de tráfego online e segurança
- Com o aumento recente do fenômeno de empresas de IA coletando dados de sites sem autorização, a Cloudflare introduziu uma nova configuração baseada em permissão que permite aos clientes bloquear automaticamente o acesso de raspadores de dados de IA
A nova política padrão e o que muda
- Com esse novo recurso, os sites podem bloquear por padrão o rastreamento automático (scraping) de bots de IA
- Se a coleta de dados for necessária, o proprietário do site deve conceder manualmente a permissão de acesso separadamente
- Antes, bots que a Cloudflare não considerava hackers ou agentes maliciosos podiam coletar livremente informações dos sites
Por que a Cloudflare mudou sua política
- O CEO da Cloudflare, Matthew Prince, enfatizou que a medida busca "proteger o conteúdo original na internet e fortalecer os direitos dos publicadores na web"
- Quando empresas de IA utilizam dados da internet sem autorização, surge o problema de reduzir o incentivo para que criadores de conteúdo produzam novos conteúdos
- A rede da Cloudflare processa cerca de 20% do tráfego da internet no mundo
- Como a atividade de rastreadores de IA na web aumentou rapidamente recentemente, a política foi adotada em resposta a isso
Dados de IA e o agravamento do conflito no setor
- Está acirrada a competição entre OpenAI, Anthropic, Google e outras empresas pela coleta em larga escala de dados para desenvolver modelos de IA
- Dados web de alta qualidade desempenham um papel central na sofisticação dos modelos de IA e na qualidade de seus resultados
- Como resultado, operadores de sites, veículos de imprensa e detentores de direitos autorais protestam contra a coleta não autorizada de dados e a falta de compensação
Casos de expansão das disputas legais
- Em junho de 2025, o Reddit processou a Anthropic e, em 2023, o The New York Times processou a OpenAI e a Microsoft, respectivamente, por uso não autorizado de dados de treinamento de IA e violação de direitos autorais
- OpenAI e Microsoft negam essas alegações de violação de direitos autorais
Conclusão
- A nova política de bloqueio padrão da coleta de dados para IA da Cloudflare tem impacto significativo sobre os critérios éticos e legais de acesso e uso de dados entre a indústria de IA e os proprietários de conteúdo
- Essa mudança de política está se tornando um marco importante para estabelecer padrões de proteção dos direitos sobre conteúdo e de consentimento prévio dentro do ecossistema de IA.
2 comentários
Cloudflare adota cobrança por rastreamento (pay-per-crawl) para bots de IA
Comentários do Hacker News
robots.txtmuda automaticamente. Não tenho certeza se existe algum comportamento adicional. Foram adicionadas ao arquivorobots.txtconfigurações para bloquear vários bots e crawlers de IA.User-agent: CCBot disallow: /, surgiu a dúvida se o CCBot (Common Crawl) é mesmo exclusivo para IA. O CCBot já vinha sendo bloqueado em váriosrobots.txthá muito tempo. Também fica a dúvida se o Common Crawl realmente pode controlar como o conteúdo é usado e, se o CC depende de fair use, se de fato tem direito de cobrar licenças ou autorizar usos secundários. Também há dúvida se os termos de uso de sites normalmente permitem que o operador relicencie conteúdo de terceiros (dos usuários) para fins de LLM e compartilhe receita.robots.txthá uma exceção que permite uso para "AI RAG (Retrieval Augmented Generation)"; isso soa estranho, porque o RAG prejudica a renda dos autores de forma muito mais direta e em tempo real do que o treinamento de modelos de linguagem.user-agentcontémbote a requisição não for pararobots.txt,humans.txtoufavicon.ico, eu respondo com status 444 (encerra a conexão imediatamente). A maioria dos mecanismos de busca eu trato com blackhole por bloco CIDR. Acho que devo ser o único fazendo isso desse jeito.420 Enhance Your Calmlink de referência.robots.txte agem honestamente usando regras pré-configuradas, mas já existem empresas como a Perplexity disfarçando tráfego, então fica a dúvida se esse bloqueio acaba prejudicando só bots honestos e incentivando mais ocultação. Esse tipo de corrida armamentista já existe há 20 anos, não é novidade. Com os sinais globais da Cloudflare, bot scoring e fingerprinting de tráfego, a estrutura parece conseguir distinguir bem até bots de IA disfarçados. Também foi compartilhado um link explicando isso veja em blog.cloudflare.comrobots.txtnem deuser agent, mas da análise de padrões de tráfego. Por causa disso, meu próprio tool precisou de uma regra de exceção para funcionar.robots.txtpara que bots não sejam classificados como maliciosos, ainda há alguma margem de permissão por site; fora isso, vai prevalecer o método próprio da Cloudflare.robots.txt? Talvez só alguns crawlers públicos façam isso; por baixo dos panos, há suspeita de que continuem rodando crawling de forma oculta. Já houve precedentes de uso ilegal de livros, imagens e dados de usuários coletados sem permissão.robots.txté, no máximo, uma convenção; não existe obrigação legal ou técnica forte. Dá para colocar nos termos de uso uma cláusula exigindo respeito à política derobots.txt, mas o poder real disso é questionável.robots.txtcomo um navegador de pesquisa ou apenas como indexação.