Bot da OpenAI derruba site de pequena empresa como se fosse um 'ataque DDoS'

(techcrunch.com)

6 pontos por GN⁺ 2025-01-14 | 4 comentários | Compartilhar no WhatsApp

A Triplegangers é uma pequena empresa operada por 7 funcionários e vende um banco de dados de "duplos digitais humanos"
- Fornece arquivos de imagem 3D e fotos para artistas 3D, criadores de videogames e outros
O problema: o bot da OpenAI derrubou o servidor ao rastrear excessivamente o site usando mais de 600 IPs
- Tentou coletar mais de 65.000 páginas de produtos e centenas de milhares de fotos
- Essa enxurrada de solicitações, "semelhante a um ataque DDoS", deve aumentar os custos na AWS
O GPTBot da OpenAI rastreia dados livremente se o arquivo robots.txt não estiver configurado corretamente
- Se o site não bloquear separadamente, a atividade do bot é permitida por padrão
- robots.txt: arquivo que define quais dados os mecanismos de busca não devem rastrear
- A Triplegangers não configurou corretamente o arquivo robots.txt do site, o que permitiu que o bot da OpenAI raspasse os dados
Problemas adicionais:
- A OpenAI leva até 24 horas para reconhecer solicitações de bloqueio de rastreamento
- Outras empresas de IA também rastreiam dados de forma semelhante

Resposta da Triplegangers

Medidas adotadas:
- Criação de um arquivo robots.txt configurado corretamente
- Configuração da conta Cloudflare para bloquear o GPTBot e outros rastreadores de IA
Resultado:
- O site foi estabilizado com sucesso
- Porém, não há como saber quais dados a OpenAI levou, nem existe um método para solicitar sua exclusão
- As ferramentas inacabadas de opt-out da OpenAI tornam ainda mais difícil para as empresas impedir o rastreamento

Por que o problema de rastreamento é especialmente grave

Rastreadores de IA pegam dados de sites sem autorização, o que causa um problema especialmente grande para empresas como a Triplegangers
Sensibilidade dos dados:
- A Triplegangers possui um banco de dados criado a partir da digitalização de pessoas reais
- Leis de proteção de dados, como o GDPR, proíbem o uso não autorizado desses dados
Atratividade dos dados:
- Os dados são etiquetados, o que os torna úteis para treinamento de IA
- Ex.: etnia, idade e características físicas são indicadas em detalhes

Lições para outros pequenos negócios

Detecção de bots de IA:
- Para verificar se bots de IA estão rastreando, é essencial monitorar os logs
- A maioria dos sites nem sabe que foi rastreada
Crescimento do problema de rastreamento:
- Em 2024, o tráfego geralmente inválido (Invalid Traffic) aumentou 86%
- Rastreadores e scrapers de IA são as principais causas

Conclusão

O problema de rastreamento por bots de IA tem impacto sério sobre pequenos negócios
Empresas de IA deveriam pedir permissão antes de levar os dados
Pequenas empresas devem usar ativamente robots.txt e firewalls, além de manter monitoramento contínuo

4 comentários

crawler 2025-01-14

Se os 600 IPs que acessaram um site forem reais, dá para pensar que estavam raspando tudo de forma insana, mas o fato de não terem usado robots.txt me faz ficar meio "ué?"
Parece uma empresa para a qual os dados são importantes e o site também parece ativo, então pelo menos deviam ter começado pela configuração mais básica, que é o robots.txt...

xguru 2025-01-14

As empresas de IA estão gerando a maior parte do tráfego da web

unsure4000 2025-01-14

Acho que a Cloudflare realmente parece ser um mal necessário. É um ponto único de ataque com desempenho excelente.

GN⁺ 2025-01-14

Comentários do Hacker News

Empresas de IA estão gerando muito tráfego em fóruns
- Houve um caso em que bots de IA geraram mais de 10 TB de tráfego no Read the Docs
- Há alegações de que a OpenAI fez scraping de dados usando 600 IPs
- Apenas os IPs do proxy reverso da Cloudflare foram registrados, então não é possível saber os IPs reais dos clientes
- Há a opinião de que é injusto chamar isso de ataque DDoS, já que os logs não têm carimbos de data e hora nem mencionam a taxa de requisições
Como desenvolvedor web, há insatisfação com os scrapers ineficientes das empresas de IA
- Recomenda-se seguir a regra básica de não sobrecarregar excessivamente um site
- Considera-se que os scrapers das empresas de IA são ineficientes e desagradáveis
Aponta-se que o artigo escreveu "robots.txt" de forma incorreta
- Considera-se suspeito usar arquivos de log sem carimbos de data e hora como evidência
- A OpenAI não é totalmente inocente, mas o artigo é avaliado como de baixa qualidade
Há a opinião de que a história da web está se repetindo
- No passado, era possível obter informações por meio de APIs, mas atualmente a maioria está bloqueada
- Há expectativa de que a IA possa tornar essas interações automatizadas possíveis novamente
Havia interesse em crawlers web pessoais, mas atualmente há decepção com a economia injusta do Google
- Há preocupação de que os LLMs possam oferecer muita utilidade, mas o medo de roubo de criatividade fará as portas se fecharem
Recentemente, pessoas que publicaram livros na Amazon estão competindo com cópias fraudulentas geradas por IA
- Houve um caso em que a BBC entrevistou alguém sobre essa experiência
Alerta-se que, se um site não usar robots.txt corretamente, a IA poderá fazer scraping à vontade
- Recomenda-se verificar o robots.txt
O site pode usar o erro HTTP 429 para controlar a velocidade dos bots
- Se o bot vier de uma sub-rede, sugere-se aplicar isso à sub-rede e não a IPs individuais