2 pontos por GN⁺ 2024-04-12 | 1 comentários | Compartilhar no WhatsApp

Problema de rastreamento de sites pelo GPTBot da OpenAI

  • O autor relata que o GPTBot da OpenAI vem acessando seu site, web.sp.am, e rastreando páginas em excesso

    • Ele fez cerca de 3 milhões de requisições de páginas por dia, das quais 1,8 milhão eram requisições a robots.txt
    • O site do autor tem estrutura de Content Farm, com 6,859 bilhões de sites, cada um com 1 página
    • Todas as páginas parecem quase idênticas e usam o mesmo IP e o mesmo certificado SSL curinga, então não deveria ser difícil para o crawler entender a situação
  • Há 1 ou 2 meses, o crawler da Amazon causou um problema parecido, mas foi possível entrar em contato e fazer o rastreamento parar

  • O autor está perguntando se existe alguém com quem seja possível entrar em contato na OpenAI

  • O autor brinca que parece que os dados do seu site estão sendo usados no treinamento do GPT-5

Opinião do GN⁺

  • Quando um crawler não interpreta corretamente o robots.txt e envia requisições excessivas, isso pode causar danos ao serviço da outra parte mesmo que não haja má intenção. A OpenAI também parece precisar corrigir rapidamente a lógica do crawler
  • Especialmente em locais que operam inúmeros domínios, como uma Content Farm, vale considerar medidas como filtragem baseada em IP para evitar rastrear cada site individualmente
  • Parece necessário haver processos e sistemas para monitorar o comportamento de bots de rastreamento, detectar sinais anormais e responder rapidamente
  • É preciso manter comunicação próxima com os administradores dos sites rastreados para minimizar danos. Em vez de focar apenas na coleta de dados, a perspectiva de coexistência é importante

1 comentários

 
GN⁺ 2024-04-12
Comentários do Hacker News
  • GPT-2/3/J viu usuários no subreddit r/counting postando números incrementais até o infinito e passou a considerar nomes de usuário como SolidGoldMagikarp como strings comuns na internet, tratando-os como tokens de nível superior durante a tokenização.

  • O vocabulário do GPT-3 era limitado a 50.257 tokens únicos. Especula-se que, embora não haja uma relação linear, tenha havido um impacto mensurável entre o aumento do custo de energia causado pelo hobby de nicho dos usuários desse subreddit e a redução do número médio de tokens de entrada ao atribuir slots a substrings comuns em texto real.

  • Seria engraçado se o subtítulo do site, "IECC ChurnWare 0.3", virasse um token do GPT-5.

  • O dono do site escreveu mal o robots.txt e acabou comentando a parte que de fato permitiria o crawling.

  • Surgiu curiosidade sobre o propósito das content farms. Parece sem sentido, mas suspeita-se que existam incentivos econômicos bizarros por trás disso. Há links de afiliados, mas fica a dúvida de quanto isso realmente rende.

  • Alguns esperavam que houvesse aranhas de verdade no server farm da OpenAI e que elas entrassem em outros racks.

  • Em segurança de rede, isso é chamado de tarpit. Pode atrasar ataques, varreduras e automações, desperdiçando o tempo e a energia do atacante e ganhando tempo para defesa.

  • Se a OpenAI também seguir o robots.txt, haverá problemas de bloqueio de bots e coleta de dados. Entre os 100 mil principais sites, 11% já estão bloqueando crawlers, mais do que os concorrentes.

  • O dono do site aparentemente não se importa muito com a busca em milhões de páginas, então talvez seja melhor deixar a OpenAI fazer o que quiser.

  • No fim, OpenAI e outras provavelmente acabarão treinando modelos com conteúdo majoritariamente gerado por IA, muitas vezes um pouco impreciso, e isso pode levar à queda na qualidade das respostas de IA. Hoje a maior parte do conteúdo ainda é escrita por humanos, mas daqui a 5 anos talvez não seja mais. Esse é um dos problemas que a indústria de IA precisa resolver rapidamente.

  • O propósito desse tipo de site já é desperdiçar o tempo e os recursos de spiders, então por que não fazer isso também com a OpenAI?

  • Esse tipo de honeypot parece uma forma interessante de contaminar o treinamento de LLMs.