1 pontos por GN⁺ 2024-06-16 | 1 comentários | Compartilhar no WhatsApp
  • O autor escreveu ontem sobre bloquear bots de IA no servidor e hoje fez o mesmo para o MacStories
  • Depois que a configuração foi concluída, Federico conseguiu citar uma postagem específica do MacStories em um site chamado Perplexity
  • O autor aplicou as seguintes mudanças em seu próprio site:
    • 30 de março: começou a bloquear bots como PerplexityBot no robots.txt
    • 14 de junho: adicionou bloqueio no lado do servidor no nginx. Todos os itens correspondentes retornam resposta 403 Forbidden
  • O autor presumiu que todas as empresas de IA ignoram o robots.txt e acredita que as requisições vêm chegando desde março, mas sem efeito
  • Como o autor publicou o texto sobre bloqueio de bots de IA depois que as medidas de bloqueio já estavam em vigor, a Perplexity não deveria conseguir acessar o site se estivesse realmente enviando seu User Agent
  • No entanto, ao perguntar à Perplexity sobre essa postagem, recebeu um resumo perfeito com detalhes que não poderiam ser conhecidos apenas por suposição
  • O autor pensou que poderia ter configurado algo errado, já que só havia testado spoofing de User Agent no Chrome
  • Mas, ao testar o código usando o User Agent que a Perplexity afirma usar nas requisições, PerplexityBot, recebeu a resposta 403 como esperado, mostrando que não havia problema na configuração do nginx
  • Quando o autor perguntou à Perplexity AI como ela conseguiu acessar o site apesar do robots.txt, a Perplexity AI respondeu que não tem capacidade de rastrear ou acessar conteúdo bloqueado por robots.txt e que acessar ou resumir conteúdo restrito não seria ético
  • Porém, Lewis confirmou que a Perplexity está usando a seguinte string de User Agent, que não inclui PerplexityBot:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
  • O autor também ativou os logs de acesso e, ao fazer uma pergunta à Perplexity, confirmou o mesmo que Lewis: o User Agent não continha nenhum identificador personalizado
  • A Perplexity está usando um navegador headless para raspar conteúdo, ignorando o robots.txt e sem enviar a string correta de User Agent
  • Como esses navegadores headless aparentemente não estão na faixa de IPs da Perplexity, também não é possível bloquear a faixa de IPs
  • O autor não quer que suas postagens sejam coletadas gratuitamente por empresas de IA, mas não há mais nenhuma medida que possa tomar
  • O autor entrou no Discord da Perplexity, se apresentou no canal de apresentação e registrou um bug no canal de bugs
  • Como próximo passo, está considerando uma solicitação com base no GDPR, mas ainda não tem certeza

Opinião do GN⁺

  • Importância de bloquear bots de IA: é necessário usar métodos adequados de bloqueio para impedir que bots de IA usem o conteúdo de um site sem autorização.
  • Verificação do User Agent: quando bots de IA não usam o User Agent correto, é importante verificar isso e bloqueá-los.
  • Limites do arquivo robots.txt: como muitos bots de IA podem ignorar o arquivo robots.txt, são necessários métodos adicionais de bloqueio no lado do servidor.
  • Privacidade: vale considerar formas de impedir o acesso não autorizado de bots de IA por meio de regulamentações como o GDPR.
  • Soluções alternativas: também é uma boa opção proteger o site com outras soluções de bloqueio de bots de IA ou ferramentas de segurança.

1 comentários

 
GN⁺ 2024-06-16
Comentário no Hacker News
  • Deve ser possível impedir que LLMs treinem com meus dados, e a Perplexity deveria tornar esse bloqueio fácil.
  • Proibir que a Perplexity forneça aos usuários dados do meu site por meio de consultas web em tempo real entra em um terreno perigoso.
  • Bloqueadores de anúncios, modo leitor e leitores de tela também funcionam de forma parecida com a Perplexity, e proibir isso pode afetar muitas ferramentas.
  • Não quero que proprietários de sites usem DRM para forçar que um site seja exibido apenas de uma maneira específica.
  • Parece que houve um mal-entendido sobre em que momento o user agent da Perplexity se aplica.
  • O dono de um site não pode decidir qual navegador o usuário vai usar, e a Perplexity não é exceção.
  • É problemático que a Perplexity colete dados em massa sem user agent, e isso deveria parar.
  • Deve-se distinguir entre empresas de IA raspando sites para treinar modelos e buscar páginas da web solicitadas por usuários.
  • Fornece um link para um artigo que trata do problema de a Perplexity pegar e usar conteúdo de outras pessoas.
  • O crawler da Perplexity deve respeitar o robots.txt, mas o user agent não é um crawler, então não precisa seguir isso.
  • Não me importo que empresas de IA raspem meu site; vou deixá-las levar dados errados.
  • Quem já fez web scraping sabe por que se mente sobre o user agent.
  • O CEO da Perplexity criticou Google e OpenAI, mas foi revelado que eles também não seguiram o robots.txt e esconderam o user agent.
  • É possível usar prompt injection invisível para impedir que empresas de IA peguem meu conteúdo de graça.
  • O fato de a Perplexity não seguir padrões voluntários da web não pode necessariamente ser chamado de mentira.