- Perplexity usou um web crawler não declarado para contornar diretrizes de proibição de crawling
- Foram detectadas ações como ignorar o arquivo robots.txt e alterar continuamente IPs e User Agents
- Em testes com domínios recém-criados, confirmou-se que a Perplexity acessou o conteúdo do site mesmo com configurações de bloqueio ativas
- A Cloudflare, para evitar comportamentos como esse, retirou a Perplexity da lista de bots oficialmente autenticados e ajustou regras de gerenciamento
- Em contraste com operadores de bots de boa-fé como a OpenAI, o comportamento furtivo da Perplexity foi criticado como um problema
Visão geral do comportamento de uso de crawlers stealth da Perplexity
- Perplexity é um motor de respostas baseado em IA e, inicialmente, faz crawling de sites com um User Agent oficialmente declarado
- No entanto, quando enfrenta bloqueios de rede, altera o User Agent para ocultar a identidade e tenta acesso por meio de vários ASN (números de sistema autônomo)
- Nesse processo, foram encontradas várias tentativas de acesso ignorando o arquivo robots.txt ou nem mesmo solicitando-o
Princípios de confiança entre websites e crawlers e comportamento problemático
- A internet vem evoluindo por décadas com base na confiança, e o princípio é que crawlers atuem com transparência, intencionalidade e critérios de comportamento claros
- Crawlers devem respeitar as diretrizes e prioridades dos proprietários de websites, e o comportamento observado da Perplexity viola esse princípio
- Por isso, a Cloudflare removeu a Perplexity da lista oficial de bots autenticados e aplicou regras de gerenciamento adicionais para detectar e bloquear crawlers stealth
Casos de teste e detecção
- A Cloudflare criou domínios novos para testar o comportamento de crawling da Perplexity
- configurou o robots.txt para bloquear todos os acessos automatizados e adicionou regras de WAF
- Mesmo bloqueando o User Agent e os IPs oficiais da Perplexity, confirmou-se que o conteúdo do site ainda foi coletado com identidade escondida
- A Perplexity tentou acessar conteúdo com User Agents oficiais e stealth, sendo que este último se passa por um navegador real (Chrome)
| Tipo |
Exemplo de User Agent |
Requisições por dia |
| Oficial |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) |
20 milhões~25 milhões |
| Stealth |
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 |
3 milhões~6 milhões |
- A Perplexity usou vários IPs e ASN que não fazem parte do intervalo oficial e trocou IPs continuamente para tentar driblar regras de bloqueio
- Isso levou à identificação da atividade em dezenas de milhares de domínios e milhões de solicitações, e a Cloudflare utilizou machine learning e sinais de rede para identificar esse crawler
Casos e limitações de evasão de crawlers stealth
- Ao bloquear um crawler stealth, a Perplexity tenta fornecer respostas usando materiais de sites externos e outras fontes
- No entanto, nesse cenário também foi observada uma queda acentuada no nível de detalhamento do conteúdo
Padrões de operação de bots de boa-fé e boas práticas da OpenAI
- Um bot bem operado precisa seguir princípios como transparência, identidade clara, divulgação do objetivo da atividade, uso de bots distintos por atividade individual e cumprimento de regras de webmaster (como robots.txt)
- A OpenAI disponibiliza de forma transparente IPs oficiais, User Agents e o propósito da atividade de crawling, e respeita estritamente o robots.txt
- Mesmo no experimento, o crawler do ChatGPT interrompe tentativas adicionais de crawling ao encontrar diretivas disallow ou bloqueio de rede
- Métodos de autenticação padronizados como Web Bot Auth também são adotados ativamente
Proteção e resposta
- Todo crawling originado de User Agents não declarados da Perplexity é detectado e bloqueado pelo sistema de gerenciamento de bots da Cloudflare
- Clientes que já têm regras de bloqueio ou de challenge de bots da Cloudflare ativadas já estão protegidos
- Regras administrativas para bloqueio de crawlers stealth foram disponibilizadas para todos os clientes, incluindo os gratuitos
- Após o anúncio do Content Independence Day, mais de 2,5 milhões de websites aplicaram políticas de proibição de crawling por IA
- A Cloudflare continua evoluindo seu arsenal e suas tecnologias para acompanhar as tentativas de evasão em evolução de operadores de bots
Esforços de política e perspectivas futuras
- A Cloudflare participa ativamente de discussões com especialistas técnicos e de política em todo o mundo, incluindo a IETF, sobre padronização de extensões do robots.txt
- Avança para estabelecer regras para crawlers confiáveis e enfatiza transparência e conformidade em um ambiente de IA e crawlers em rápida mudança
Ainda não há comentários.