4 pontos por GN⁺ 2025-08-05 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Perplexity usou um web crawler não declarado para contornar diretrizes de proibição de crawling
  • Foram detectadas ações como ignorar o arquivo robots.txt e alterar continuamente IPs e User Agents
  • Em testes com domínios recém-criados, confirmou-se que a Perplexity acessou o conteúdo do site mesmo com configurações de bloqueio ativas
  • A Cloudflare, para evitar comportamentos como esse, retirou a Perplexity da lista de bots oficialmente autenticados e ajustou regras de gerenciamento
  • Em contraste com operadores de bots de boa-fé como a OpenAI, o comportamento furtivo da Perplexity foi criticado como um problema

Visão geral do comportamento de uso de crawlers stealth da Perplexity

  • Perplexity é um motor de respostas baseado em IA e, inicialmente, faz crawling de sites com um User Agent oficialmente declarado
  • No entanto, quando enfrenta bloqueios de rede, altera o User Agent para ocultar a identidade e tenta acesso por meio de vários ASN (números de sistema autônomo)
  • Nesse processo, foram encontradas várias tentativas de acesso ignorando o arquivo robots.txt ou nem mesmo solicitando-o

Princípios de confiança entre websites e crawlers e comportamento problemático

  • A internet vem evoluindo por décadas com base na confiança, e o princípio é que crawlers atuem com transparência, intencionalidade e critérios de comportamento claros
  • Crawlers devem respeitar as diretrizes e prioridades dos proprietários de websites, e o comportamento observado da Perplexity viola esse princípio
  • Por isso, a Cloudflare removeu a Perplexity da lista oficial de bots autenticados e aplicou regras de gerenciamento adicionais para detectar e bloquear crawlers stealth

Casos de teste e detecção

  • A Cloudflare criou domínios novos para testar o comportamento de crawling da Perplexity
    • configurou o robots.txt para bloquear todos os acessos automatizados e adicionou regras de WAF
    • Mesmo bloqueando o User Agent e os IPs oficiais da Perplexity, confirmou-se que o conteúdo do site ainda foi coletado com identidade escondida
  • A Perplexity tentou acessar conteúdo com User Agents oficiais e stealth, sendo que este último se passa por um navegador real (Chrome)
Tipo Exemplo de User Agent Requisições por dia
Oficial Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 20 milhões~25 milhões
Stealth Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 3 milhões~6 milhões
  • A Perplexity usou vários IPs e ASN que não fazem parte do intervalo oficial e trocou IPs continuamente para tentar driblar regras de bloqueio
  • Isso levou à identificação da atividade em dezenas de milhares de domínios e milhões de solicitações, e a Cloudflare utilizou machine learning e sinais de rede para identificar esse crawler

Casos e limitações de evasão de crawlers stealth

  • Ao bloquear um crawler stealth, a Perplexity tenta fornecer respostas usando materiais de sites externos e outras fontes
  • No entanto, nesse cenário também foi observada uma queda acentuada no nível de detalhamento do conteúdo

Padrões de operação de bots de boa-fé e boas práticas da OpenAI

  • Um bot bem operado precisa seguir princípios como transparência, identidade clara, divulgação do objetivo da atividade, uso de bots distintos por atividade individual e cumprimento de regras de webmaster (como robots.txt)
  • A OpenAI disponibiliza de forma transparente IPs oficiais, User Agents e o propósito da atividade de crawling, e respeita estritamente o robots.txt
  • Mesmo no experimento, o crawler do ChatGPT interrompe tentativas adicionais de crawling ao encontrar diretivas disallow ou bloqueio de rede
  • Métodos de autenticação padronizados como Web Bot Auth também são adotados ativamente

Proteção e resposta

  • Todo crawling originado de User Agents não declarados da Perplexity é detectado e bloqueado pelo sistema de gerenciamento de bots da Cloudflare
  • Clientes que já têm regras de bloqueio ou de challenge de bots da Cloudflare ativadas já estão protegidos
  • Regras administrativas para bloqueio de crawlers stealth foram disponibilizadas para todos os clientes, incluindo os gratuitos
  • Após o anúncio do Content Independence Day, mais de 2,5 milhões de websites aplicaram políticas de proibição de crawling por IA
  • A Cloudflare continua evoluindo seu arsenal e suas tecnologias para acompanhar as tentativas de evasão em evolução de operadores de bots

Esforços de política e perspectivas futuras

  • A Cloudflare participa ativamente de discussões com especialistas técnicos e de política em todo o mundo, incluindo a IETF, sobre padronização de extensões do robots.txt
  • Avança para estabelecer regras para crawlers confiáveis e enfatiza transparência e conformidade em um ambiente de IA e crawlers em rápida mudança

Ainda não há comentários.

Ainda não há comentários.