- A Triplegangers é uma pequena empresa operada por 7 funcionários e vende um banco de dados de "duplos digitais humanos"
- Fornece arquivos de imagem 3D e fotos para artistas 3D, criadores de videogames e outros
- O problema: o bot da OpenAI derrubou o servidor ao rastrear excessivamente o site usando mais de 600 IPs
- Tentou coletar mais de 65.000 páginas de produtos e centenas de milhares de fotos
- Essa enxurrada de solicitações, "semelhante a um ataque DDoS", deve aumentar os custos na AWS
- O GPTBot da OpenAI rastreia dados livremente se o arquivo robots.txt não estiver configurado corretamente
- Se o site não bloquear separadamente, a atividade do bot é permitida por padrão
- robots.txt: arquivo que define quais dados os mecanismos de busca não devem rastrear
- A Triplegangers não configurou corretamente o arquivo robots.txt do site, o que permitiu que o bot da OpenAI raspasse os dados
- Problemas adicionais:
- A OpenAI leva até 24 horas para reconhecer solicitações de bloqueio de rastreamento
- Outras empresas de IA também rastreiam dados de forma semelhante
Resposta da Triplegangers
- Medidas adotadas:
- Criação de um arquivo robots.txt configurado corretamente
- Configuração da conta Cloudflare para bloquear o GPTBot e outros rastreadores de IA
- Resultado:
- O site foi estabilizado com sucesso
- Porém, não há como saber quais dados a OpenAI levou, nem existe um método para solicitar sua exclusão
- As ferramentas inacabadas de opt-out da OpenAI tornam ainda mais difícil para as empresas impedir o rastreamento
Por que o problema de rastreamento é especialmente grave
- Rastreadores de IA pegam dados de sites sem autorização, o que causa um problema especialmente grande para empresas como a Triplegangers
- Sensibilidade dos dados:
- A Triplegangers possui um banco de dados criado a partir da digitalização de pessoas reais
- Leis de proteção de dados, como o GDPR, proíbem o uso não autorizado desses dados
- Atratividade dos dados:
- Os dados são etiquetados, o que os torna úteis para treinamento de IA
- Ex.: etnia, idade e características físicas são indicadas em detalhes
Lições para outros pequenos negócios
- Detecção de bots de IA:
- Para verificar se bots de IA estão rastreando, é essencial monitorar os logs
- A maioria dos sites nem sabe que foi rastreada
- Crescimento do problema de rastreamento:
- Em 2024, o tráfego geralmente inválido (Invalid Traffic) aumentou 86%
- Rastreadores e scrapers de IA são as principais causas
Conclusão
- O problema de rastreamento por bots de IA tem impacto sério sobre pequenos negócios
- Empresas de IA deveriam pedir permissão antes de levar os dados
- Pequenas empresas devem usar ativamente robots.txt e firewalls, além de manter monitoramento contínuo
4 comentários
Se os 600 IPs que acessaram um site forem reais, dá para pensar que estavam raspando tudo de forma insana, mas o fato de não terem usado
robots.txtme faz ficar meio "ué?"Parece uma empresa para a qual os dados são importantes e o site também parece ativo, então pelo menos deviam ter começado pela configuração mais básica, que é o
robots.txt...As empresas de IA estão gerando a maior parte do tráfego da web
Acho que a Cloudflare realmente parece ser um mal necessário. É um ponto único de ataque com desempenho excelente.
Comentários do Hacker News
Empresas de IA estão gerando muito tráfego em fóruns
Como desenvolvedor web, há insatisfação com os scrapers ineficientes das empresas de IA
Aponta-se que o artigo escreveu "robots.txt" de forma incorreta
Há a opinião de que a história da web está se repetindo
Havia interesse em crawlers web pessoais, mas atualmente há decepção com a economia injusta do Google
Recentemente, pessoas que publicaram livros na Amazon estão competindo com cópias fraudulentas geradas por IA
Alerta-se que, se um site não usar
robots.txtcorretamente, a IA poderá fazer scraping à vontaderobots.txtO site pode usar o erro HTTP 429 para controlar a velocidade dos bots