Perplexity AI está mentindo sobre seu User Agent
(rknight.me)- O autor escreveu ontem sobre bloquear bots de IA no servidor e hoje fez o mesmo para o MacStories
- Depois que a configuração foi concluída, Federico conseguiu citar uma postagem específica do MacStories em um site chamado Perplexity
- O autor aplicou as seguintes mudanças em seu próprio site:
- 30 de março: começou a bloquear bots como
PerplexityBotnorobots.txt - 14 de junho: adicionou bloqueio no lado do servidor no nginx. Todos os itens correspondentes retornam resposta
403 Forbidden
- 30 de março: começou a bloquear bots como
- O autor presumiu que todas as empresas de IA ignoram o
robots.txte acredita que as requisições vêm chegando desde março, mas sem efeito - Como o autor publicou o texto sobre bloqueio de bots de IA depois que as medidas de bloqueio já estavam em vigor, a Perplexity não deveria conseguir acessar o site se estivesse realmente enviando seu User Agent
- No entanto, ao perguntar à Perplexity sobre essa postagem, recebeu um resumo perfeito com detalhes que não poderiam ser conhecidos apenas por suposição
- O autor pensou que poderia ter configurado algo errado, já que só havia testado spoofing de User Agent no Chrome
- Mas, ao testar o código usando o User Agent que a Perplexity afirma usar nas requisições,
PerplexityBot, recebeu a resposta403como esperado, mostrando que não havia problema na configuração do nginx - Quando o autor perguntou à Perplexity AI como ela conseguiu acessar o site apesar do
robots.txt, a Perplexity AI respondeu que não tem capacidade de rastrear ou acessar conteúdo bloqueado porrobots.txte que acessar ou resumir conteúdo restrito não seria ético - Porém, Lewis confirmou que a Perplexity está usando a seguinte string de User Agent, que não inclui
PerplexityBot:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - O autor também ativou os logs de acesso e, ao fazer uma pergunta à Perplexity, confirmou o mesmo que Lewis: o User Agent não continha nenhum identificador personalizado
- A Perplexity está usando um navegador headless para raspar conteúdo, ignorando o
robots.txte sem enviar a string correta de User Agent - Como esses navegadores headless aparentemente não estão na faixa de IPs da Perplexity, também não é possível bloquear a faixa de IPs
- O autor não quer que suas postagens sejam coletadas gratuitamente por empresas de IA, mas não há mais nenhuma medida que possa tomar
- O autor entrou no Discord da Perplexity, se apresentou no canal de apresentação e registrou um bug no canal de bugs
- Como próximo passo, está considerando uma solicitação com base no GDPR, mas ainda não tem certeza
Opinião do GN⁺
- Importância de bloquear bots de IA: é necessário usar métodos adequados de bloqueio para impedir que bots de IA usem o conteúdo de um site sem autorização.
- Verificação do User Agent: quando bots de IA não usam o User Agent correto, é importante verificar isso e bloqueá-los.
- Limites do arquivo robots.txt: como muitos bots de IA podem ignorar o arquivo
robots.txt, são necessários métodos adicionais de bloqueio no lado do servidor. - Privacidade: vale considerar formas de impedir o acesso não autorizado de bots de IA por meio de regulamentações como o GDPR.
- Soluções alternativas: também é uma boa opção proteger o site com outras soluções de bloqueio de bots de IA ou ferramentas de segurança.
1 comentários
Comentário no Hacker News