Empresas de IA estão gerando a maior parte do tráfego da web

(pod.geraspora.de)

14 pontos por GN⁺ 2024-12-31 | 1 comentários | Compartilhar no WhatsApp

Uma análise recente dos problemas de picos de carga e lentidão na infraestrutura web do projeto diaspora (Discourse, Wiki, site do projeto etc.) concluiu que a "maior parte do tráfego é gerada por bots de rastreamento de LLM"
Nos últimos 60 dias, houve 11,3 milhões de requisições (média de 2,19 req/s), das quais mais de 70% vieram de bots de rastreamento relacionados a LLMs
- GPTBot/1.2: 24,6% (2,78 milhões de requisições)
- Amazonbot/0.1: 14,9% (1,69 milhão de requisições)
- ClaudeBot/1.0: 4,3% (490 mil requisições)
- meta-externalagent/1.1: 2,2% (220 mil requisições)
Padrões anormais de rastreamento
- Rastreamento repetitivo: rastreia a mesma página em intervalos de 6 horas
- Ignora o robots.txt: não cumpre nenhuma regra de limitação de rastreamento
- Rastreamento ineficiente: rastreia em massa dados sem sentido (ex.: todo o histórico de edições da Wiki)
- Picos de carga: em certos momentos gera mais de 10 req/s, sobrecarregando o banco de dados e o servidor MediaWiki
Também é impossível se defender
- Mudança de IP: altera continuamente o IP para contornar rate limits
- Mudança da string de UA: troca o User Agent do bot por strings arbitrárias para driblar bloqueios
Crawlers tradicionais de mecanismos de busca, como Googlebot e Bingbot, mostram padrões de rastreamento normais e eficientes.
- Googlebot: 0,14% (16.600 requisições)
- Bingbot: 0,14% (15.900 requisições)
Minimização de rastreamento duplicado e respeito às regras do robots.txt

Resultados e impacto

Impossibilidade de fornecer serviço de forma eficaz: os bots de rastreamento de LLM degradam fortemente a experiência dos usuários humanos
Sobrecarga do servidor: o banco de dados e o MediaWiki sofrem repetidamente com picos de carga
Praticamente um DDoS em toda a internet: esse tipo de rastreamento provoca desperdício desnecessário de recursos em escala global

Conclusão

Devido aos padrões anormais de tráfego dos bots de rastreamento de LLM, a infraestrutura segue sob carga constante, e as tentativas de defesa não têm sido eficazes
O problema vai além do cansaço pessoal e está causando um impacto sério em todo o ecossistema da internet

1 comentários

GN⁺ 2024-12-31

Comentários do Hacker News

Compartilha a experiência de o bot de IA da Meta ter rastreado um site de forma excessiva, derrubando o servidor. Explica como bloquear isso usando Cloudflare
- Menciona que o recurso de bloqueio de bots de IA da Cloudflare é útil
- Argumenta que o acesso desses bots de IA ao conteúdo não traz valor
Compartilha dados de tráfego de bots ocorridos em várias plataformas
- Bots como Claude, Amazon, Data For SEO e ChatGPT geram muito tráfego
- Explica que esses bots ignoram o robots.txt ou não fazem backoff mesmo quando há latência
Discute maneiras de bloquear bots
- Explica o comportamento de bots que mudam de IP ou passam a usar um User-Agent de não-bot
- Compartilha um link do GitHub que publica os intervalos de IP da OpenAI
- Sugere uma forma de bloquear bots de IA usando um plugin do WordPress
Menciona o caso do fórum CGTalk, que foi encerrado por problemas de recursos
- Muitos fóruns migram para Slack e Discord para reduzir a carga de manter servidores
Argumenta que as empresas de IA deveriam fazer scraping de forma mais inteligente
- Afirma que o comportamento das empresas de IA é vergonhoso
Expressa curiosidade sobre ataques de poisoning
- Explora a possibilidade de confundir modelos de IA com conteúdo incorreto escrito por humanos
Compartilha a experiência de um app implantado no GCP ter tido aumento de custos por causa do tráfego de bots
- Supõe que a causa foi ter compartilhado o app no Reddit
Compartilha a experiência de crawling em um grande fórum
- Menciona que o ChatGPT conhece bem a história do fórum
- Sugere a ideia de adicionar textos que possam influenciar LLMs
Argumenta que o comportamento de bots que ignoram o robots.txt e prejudicam o serviço pode ser considerado ilegal
- Recomenda entrar em contato com as autoridades locais de aplicação da lei cibernética

Empresas de IA estão gerando a maior parte do tráfego da web

Resultados e impacto

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News