14 pontos por GN⁺ 2024-12-31 | 1 comentários | Compartilhar no WhatsApp
  • Uma análise recente dos problemas de picos de carga e lentidão na infraestrutura web do projeto diaspora (Discourse, Wiki, site do projeto etc.) concluiu que a "maior parte do tráfego é gerada por bots de rastreamento de LLM"
  • Nos últimos 60 dias, houve 11,3 milhões de requisições (média de 2,19 req/s), das quais mais de 70% vieram de bots de rastreamento relacionados a LLMs
    • GPTBot/1.2: 24,6% (2,78 milhões de requisições)
    • Amazonbot/0.1: 14,9% (1,69 milhão de requisições)
    • ClaudeBot/1.0: 4,3% (490 mil requisições)
    • meta-externalagent/1.1: 2,2% (220 mil requisições)
  • Padrões anormais de rastreamento
    • Rastreamento repetitivo: rastreia a mesma página em intervalos de 6 horas
    • Ignora o robots.txt: não cumpre nenhuma regra de limitação de rastreamento
    • Rastreamento ineficiente: rastreia em massa dados sem sentido (ex.: todo o histórico de edições da Wiki)
    • Picos de carga: em certos momentos gera mais de 10 req/s, sobrecarregando o banco de dados e o servidor MediaWiki
  • Também é impossível se defender
    • Mudança de IP: altera continuamente o IP para contornar rate limits
    • Mudança da string de UA: troca o User Agent do bot por strings arbitrárias para driblar bloqueios
  • Crawlers tradicionais de mecanismos de busca, como Googlebot e Bingbot, mostram padrões de rastreamento normais e eficientes.
    • Googlebot: 0,14% (16.600 requisições)
    • Bingbot: 0,14% (15.900 requisições)
  • Minimização de rastreamento duplicado e respeito às regras do robots.txt

Resultados e impacto

  • Impossibilidade de fornecer serviço de forma eficaz: os bots de rastreamento de LLM degradam fortemente a experiência dos usuários humanos
  • Sobrecarga do servidor: o banco de dados e o MediaWiki sofrem repetidamente com picos de carga
  • Praticamente um DDoS em toda a internet: esse tipo de rastreamento provoca desperdício desnecessário de recursos em escala global

Conclusão

  • Devido aos padrões anormais de tráfego dos bots de rastreamento de LLM, a infraestrutura segue sob carga constante, e as tentativas de defesa não têm sido eficazes
  • O problema vai além do cansaço pessoal e está causando um impacto sério em todo o ecossistema da internet

1 comentários

 
GN⁺ 2024-12-31
Comentários do Hacker News
  • Compartilha a experiência de o bot de IA da Meta ter rastreado um site de forma excessiva, derrubando o servidor. Explica como bloquear isso usando Cloudflare

    • Menciona que o recurso de bloqueio de bots de IA da Cloudflare é útil
    • Argumenta que o acesso desses bots de IA ao conteúdo não traz valor
  • Compartilha dados de tráfego de bots ocorridos em várias plataformas

    • Bots como Claude, Amazon, Data For SEO e ChatGPT geram muito tráfego
    • Explica que esses bots ignoram o robots.txt ou não fazem backoff mesmo quando há latência
  • Discute maneiras de bloquear bots

    • Explica o comportamento de bots que mudam de IP ou passam a usar um User-Agent de não-bot
    • Compartilha um link do GitHub que publica os intervalos de IP da OpenAI
    • Sugere uma forma de bloquear bots de IA usando um plugin do WordPress
  • Menciona o caso do fórum CGTalk, que foi encerrado por problemas de recursos

    • Muitos fóruns migram para Slack e Discord para reduzir a carga de manter servidores
  • Argumenta que as empresas de IA deveriam fazer scraping de forma mais inteligente

    • Afirma que o comportamento das empresas de IA é vergonhoso
  • Expressa curiosidade sobre ataques de poisoning

    • Explora a possibilidade de confundir modelos de IA com conteúdo incorreto escrito por humanos
  • Compartilha a experiência de um app implantado no GCP ter tido aumento de custos por causa do tráfego de bots

    • Supõe que a causa foi ter compartilhado o app no Reddit
  • Compartilha a experiência de crawling em um grande fórum

    • Menciona que o ChatGPT conhece bem a história do fórum
    • Sugere a ideia de adicionar textos que possam influenciar LLMs
  • Argumenta que o comportamento de bots que ignoram o robots.txt e prejudicam o serviço pode ser considerado ilegal

    • Recomenda entrar em contato com as autoridades locais de aplicação da lei cibernética