6 pontos por GN⁺ 2025-01-14 | 4 comentários | Compartilhar no WhatsApp
  • A Triplegangers é uma pequena empresa operada por 7 funcionários e vende um banco de dados de "duplos digitais humanos"
    • Fornece arquivos de imagem 3D e fotos para artistas 3D, criadores de videogames e outros
  • O problema: o bot da OpenAI derrubou o servidor ao rastrear excessivamente o site usando mais de 600 IPs
    • Tentou coletar mais de 65.000 páginas de produtos e centenas de milhares de fotos
    • Essa enxurrada de solicitações, "semelhante a um ataque DDoS", deve aumentar os custos na AWS
  • O GPTBot da OpenAI rastreia dados livremente se o arquivo robots.txt não estiver configurado corretamente
    • Se o site não bloquear separadamente, a atividade do bot é permitida por padrão
    • robots.txt: arquivo que define quais dados os mecanismos de busca não devem rastrear
    • A Triplegangers não configurou corretamente o arquivo robots.txt do site, o que permitiu que o bot da OpenAI raspasse os dados
  • Problemas adicionais:
    • A OpenAI leva até 24 horas para reconhecer solicitações de bloqueio de rastreamento
    • Outras empresas de IA também rastreiam dados de forma semelhante

Resposta da Triplegangers

  • Medidas adotadas:
    • Criação de um arquivo robots.txt configurado corretamente
    • Configuração da conta Cloudflare para bloquear o GPTBot e outros rastreadores de IA
  • Resultado:
    • O site foi estabilizado com sucesso
    • Porém, não há como saber quais dados a OpenAI levou, nem existe um método para solicitar sua exclusão
    • As ferramentas inacabadas de opt-out da OpenAI tornam ainda mais difícil para as empresas impedir o rastreamento

Por que o problema de rastreamento é especialmente grave

  • Rastreadores de IA pegam dados de sites sem autorização, o que causa um problema especialmente grande para empresas como a Triplegangers
  • Sensibilidade dos dados:
    • A Triplegangers possui um banco de dados criado a partir da digitalização de pessoas reais
    • Leis de proteção de dados, como o GDPR, proíbem o uso não autorizado desses dados
  • Atratividade dos dados:
    • Os dados são etiquetados, o que os torna úteis para treinamento de IA
    • Ex.: etnia, idade e características físicas são indicadas em detalhes

Lições para outros pequenos negócios

  • Detecção de bots de IA:
    • Para verificar se bots de IA estão rastreando, é essencial monitorar os logs
    • A maioria dos sites nem sabe que foi rastreada
  • Crescimento do problema de rastreamento:
    • Em 2024, o tráfego geralmente inválido (Invalid Traffic) aumentou 86%
    • Rastreadores e scrapers de IA são as principais causas

Conclusão

  • O problema de rastreamento por bots de IA tem impacto sério sobre pequenos negócios
  • Empresas de IA deveriam pedir permissão antes de levar os dados
  • Pequenas empresas devem usar ativamente robots.txt e firewalls, além de manter monitoramento contínuo

4 comentários

 
crawler 2025-01-14

Se os 600 IPs que acessaram um site forem reais, dá para pensar que estavam raspando tudo de forma insana, mas o fato de não terem usado robots.txt me faz ficar meio "ué?"
Parece uma empresa para a qual os dados são importantes e o site também parece ativo, então pelo menos deviam ter começado pela configuração mais básica, que é o robots.txt...

 
unsure4000 2025-01-14

Acho que a Cloudflare realmente parece ser um mal necessário. É um ponto único de ataque com desempenho excelente.

 
GN⁺ 2025-01-14
Comentários do Hacker News
  • Empresas de IA estão gerando muito tráfego em fóruns

    • Houve um caso em que bots de IA geraram mais de 10 TB de tráfego no Read the Docs
    • Há alegações de que a OpenAI fez scraping de dados usando 600 IPs
    • Apenas os IPs do proxy reverso da Cloudflare foram registrados, então não é possível saber os IPs reais dos clientes
    • Há a opinião de que é injusto chamar isso de ataque DDoS, já que os logs não têm carimbos de data e hora nem mencionam a taxa de requisições
  • Como desenvolvedor web, há insatisfação com os scrapers ineficientes das empresas de IA

    • Recomenda-se seguir a regra básica de não sobrecarregar excessivamente um site
    • Considera-se que os scrapers das empresas de IA são ineficientes e desagradáveis
  • Aponta-se que o artigo escreveu "robots.txt" de forma incorreta

    • Considera-se suspeito usar arquivos de log sem carimbos de data e hora como evidência
    • A OpenAI não é totalmente inocente, mas o artigo é avaliado como de baixa qualidade
  • Há a opinião de que a história da web está se repetindo

    • No passado, era possível obter informações por meio de APIs, mas atualmente a maioria está bloqueada
    • Há expectativa de que a IA possa tornar essas interações automatizadas possíveis novamente
  • Havia interesse em crawlers web pessoais, mas atualmente há decepção com a economia injusta do Google

    • Há preocupação de que os LLMs possam oferecer muita utilidade, mas o medo de roubo de criatividade fará as portas se fecharem
  • Recentemente, pessoas que publicaram livros na Amazon estão competindo com cópias fraudulentas geradas por IA

    • Houve um caso em que a BBC entrevistou alguém sobre essa experiência
  • Alerta-se que, se um site não usar robots.txt corretamente, a IA poderá fazer scraping à vontade

    • Recomenda-se verificar o robots.txt
  • O site pode usar o erro HTTP 429 para controlar a velocidade dos bots

    • Se o bot vier de uma sub-rede, sugere-se aplicar isso à sub-rede e não a IPs individuais