Perplexity AI está mentindo sobre seu User Agent

(rknight.me)

1 pontos por GN⁺ 2024-06-16 | 1 comentários | Compartilhar no WhatsApp

O autor escreveu ontem sobre bloquear bots de IA no servidor e hoje fez o mesmo para o MacStories
Depois que a configuração foi concluída, Federico conseguiu citar uma postagem específica do MacStories em um site chamado Perplexity
O autor aplicou as seguintes mudanças em seu próprio site:
- 30 de março: começou a bloquear bots como PerplexityBot no robots.txt
- 14 de junho: adicionou bloqueio no lado do servidor no nginx. Todos os itens correspondentes retornam resposta 403 Forbidden
O autor presumiu que todas as empresas de IA ignoram o robots.txt e acredita que as requisições vêm chegando desde março, mas sem efeito
Como o autor publicou o texto sobre bloqueio de bots de IA depois que as medidas de bloqueio já estavam em vigor, a Perplexity não deveria conseguir acessar o site se estivesse realmente enviando seu User Agent
No entanto, ao perguntar à Perplexity sobre essa postagem, recebeu um resumo perfeito com detalhes que não poderiam ser conhecidos apenas por suposição
O autor pensou que poderia ter configurado algo errado, já que só havia testado spoofing de User Agent no Chrome
Mas, ao testar o código usando o User Agent que a Perplexity afirma usar nas requisições, PerplexityBot, recebeu a resposta 403 como esperado, mostrando que não havia problema na configuração do nginx
Quando o autor perguntou à Perplexity AI como ela conseguiu acessar o site apesar do robots.txt, a Perplexity AI respondeu que não tem capacidade de rastrear ou acessar conteúdo bloqueado por robots.txt e que acessar ou resumir conteúdo restrito não seria ético
Porém, Lewis confirmou que a Perplexity está usando a seguinte string de User Agent, que não inclui PerplexityBot:
```
Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
```
O autor também ativou os logs de acesso e, ao fazer uma pergunta à Perplexity, confirmou o mesmo que Lewis: o User Agent não continha nenhum identificador personalizado
A Perplexity está usando um navegador headless para raspar conteúdo, ignorando o robots.txt e sem enviar a string correta de User Agent
Como esses navegadores headless aparentemente não estão na faixa de IPs da Perplexity, também não é possível bloquear a faixa de IPs
O autor não quer que suas postagens sejam coletadas gratuitamente por empresas de IA, mas não há mais nenhuma medida que possa tomar
O autor entrou no Discord da Perplexity, se apresentou no canal de apresentação e registrou um bug no canal de bugs
Como próximo passo, está considerando uma solicitação com base no GDPR, mas ainda não tem certeza

Opinião do GN⁺

Importância de bloquear bots de IA: é necessário usar métodos adequados de bloqueio para impedir que bots de IA usem o conteúdo de um site sem autorização.
Verificação do User Agent: quando bots de IA não usam o User Agent correto, é importante verificar isso e bloqueá-los.
Limites do arquivo robots.txt: como muitos bots de IA podem ignorar o arquivo robots.txt, são necessários métodos adicionais de bloqueio no lado do servidor.
Privacidade: vale considerar formas de impedir o acesso não autorizado de bots de IA por meio de regulamentações como o GDPR.
Soluções alternativas: também é uma boa opção proteger o site com outras soluções de bloqueio de bots de IA ou ferramentas de segurança.

1 comentários

GN⁺ 2024-06-16

Comentário no Hacker News

Deve ser possível impedir que LLMs treinem com meus dados, e a Perplexity deveria tornar esse bloqueio fácil.
Proibir que a Perplexity forneça aos usuários dados do meu site por meio de consultas web em tempo real entra em um terreno perigoso.
Bloqueadores de anúncios, modo leitor e leitores de tela também funcionam de forma parecida com a Perplexity, e proibir isso pode afetar muitas ferramentas.
Não quero que proprietários de sites usem DRM para forçar que um site seja exibido apenas de uma maneira específica.
Parece que houve um mal-entendido sobre em que momento o user agent da Perplexity se aplica.
O dono de um site não pode decidir qual navegador o usuário vai usar, e a Perplexity não é exceção.
É problemático que a Perplexity colete dados em massa sem user agent, e isso deveria parar.
Deve-se distinguir entre empresas de IA raspando sites para treinar modelos e buscar páginas da web solicitadas por usuários.
Fornece um link para um artigo que trata do problema de a Perplexity pegar e usar conteúdo de outras pessoas.
O crawler da Perplexity deve respeitar o robots.txt, mas o user agent não é um crawler, então não precisa seguir isso.
Não me importo que empresas de IA raspem meu site; vou deixá-las levar dados errados.
Quem já fez web scraping sabe por que se mente sobre o user agent.
O CEO da Perplexity criticou Google e OpenAI, mas foi revelado que eles também não seguiram o robots.txt e esconderam o user agent.
É possível usar prompt injection invisível para impedir que empresas de IA peguem meu conteúdo de graça.
O fato de a Perplexity não seguir padrões voluntários da web não pode necessariamente ser chamado de mentira.

Perplexity AI está mentindo sobre seu User Agent

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentário no Hacker News