Empresas de IA estão gerando a maior parte do tráfego da web
(pod.geraspora.de)- Uma análise recente dos problemas de picos de carga e lentidão na infraestrutura web do projeto diaspora (Discourse, Wiki, site do projeto etc.) concluiu que a "maior parte do tráfego é gerada por bots de rastreamento de LLM"
- Nos últimos 60 dias, houve 11,3 milhões de requisições (média de 2,19 req/s), das quais mais de 70% vieram de bots de rastreamento relacionados a LLMs
- GPTBot/1.2: 24,6% (2,78 milhões de requisições)
- Amazonbot/0.1: 14,9% (1,69 milhão de requisições)
- ClaudeBot/1.0: 4,3% (490 mil requisições)
- meta-externalagent/1.1: 2,2% (220 mil requisições)
- Padrões anormais de rastreamento
- Rastreamento repetitivo: rastreia a mesma página em intervalos de 6 horas
- Ignora o
robots.txt: não cumpre nenhuma regra de limitação de rastreamento - Rastreamento ineficiente: rastreia em massa dados sem sentido (ex.: todo o histórico de edições da Wiki)
- Picos de carga: em certos momentos gera mais de 10 req/s, sobrecarregando o banco de dados e o servidor MediaWiki
- Também é impossível se defender
- Mudança de IP: altera continuamente o IP para contornar rate limits
- Mudança da string de UA: troca o User Agent do bot por strings arbitrárias para driblar bloqueios
- Crawlers tradicionais de mecanismos de busca, como Googlebot e Bingbot, mostram padrões de rastreamento normais e eficientes.
- Googlebot: 0,14% (16.600 requisições)
- Bingbot: 0,14% (15.900 requisições)
- Minimização de rastreamento duplicado e respeito às regras do
robots.txt
Resultados e impacto
- Impossibilidade de fornecer serviço de forma eficaz: os bots de rastreamento de LLM degradam fortemente a experiência dos usuários humanos
- Sobrecarga do servidor: o banco de dados e o MediaWiki sofrem repetidamente com picos de carga
- Praticamente um DDoS em toda a internet: esse tipo de rastreamento provoca desperdício desnecessário de recursos em escala global
Conclusão
- Devido aos padrões anormais de tráfego dos bots de rastreamento de LLM, a infraestrutura segue sob carga constante, e as tentativas de defesa não têm sido eficazes
- O problema vai além do cansaço pessoal e está causando um impacto sério em todo o ecossistema da internet
1 comentários
Comentários do Hacker News
Compartilha a experiência de o bot de IA da Meta ter rastreado um site de forma excessiva, derrubando o servidor. Explica como bloquear isso usando Cloudflare
Compartilha dados de tráfego de bots ocorridos em várias plataformas
robots.txtou não fazem backoff mesmo quando há latênciaDiscute maneiras de bloquear bots
Menciona o caso do fórum CGTalk, que foi encerrado por problemas de recursos
Argumenta que as empresas de IA deveriam fazer scraping de forma mais inteligente
Expressa curiosidade sobre ataques de poisoning
Compartilha a experiência de um app implantado no GCP ter tido aumento de custos por causa do tráfego de bots
Compartilha a experiência de crawling em um grande fórum
Argumenta que o comportamento de bots que ignoram o
robots.txte prejudicam o serviço pode ser considerado ilegal