1 pontos por GN⁺ 2025-03-21 | 1 comentários | Compartilhar no WhatsApp
  • Drew DeVault (fundador do SourceHut) alertou que crawlers de IA estão ignorando o robots.txt e causando falhas graves no SourceHut
  • A infraestrutura GitLab do KDE também ficou indisponível devido a um ataque de crawlers de IA originado de faixas de IP da Alibaba
  • Problemas dos crawlers de IA
    • Crawlers de IA ignoram os requisitos do robots.txt
      • Rastreiam todas as páginas e commits de git blame e git log
      • Fazem requisições com User-Agent aleatórios e a partir de dezenas de milhares de IPs → disfarçando-se como tráfego de usuários comuns
    • É difícil bloquear os crawlers → trabalhos de alta prioridade acabam atrasados por semanas ou meses
  • Reclamações dos administradores de sistema
    • O problema dos crawlers de IA não é um caso isolado, mas sim um problema generalizado
      • Muitos administradores de sistema estão enfrentando o mesmo problema
      • OpenAI e Anthropic configuram User-Agent precisos, mas empresas chinesas de IA não fazem isso
  • Resposta do KDE GitLab
    • Bloqueou bots disfarçados de MS Edge → solução temporária
    • O GNOME aplicou limite de velocidade para usuários não autenticados ao visualizar merge requests e commits
    • Adoção do Anubis → o navegador só recebe acesso após resolver um desafio
  • Problemas do Anubis
    • Também afeta os usuários → é necessário gastar tempo resolvendo o desafio
      • Quando um link é compartilhado em salas de chat, ocorre sobrecarga → tempos de espera de 1 a 2 minutos
  • 97% do tráfego é de bots
    • No GNOME, houve 81.000 requisições em 2 horas e meia → 97% eram crawlers de IA
    • Alguns projetos tiveram redução de 75% no tráfego após bloquear crawlers de IA
  • Problemas em outros projetos FOSS
    • Fedora → bloqueou todos os IPs do Brasil para barrar crawlers
    • Inkscape → os crawlers falsificavam informações do navegador → bloqueio em massa de IPs
    • Frama Software → criou uma lista de bloqueio com 460 mil IPs
  • Projetos de resposta a crawlers de IA
    • ai.robots.txt → fornece uma lista aberta para bloquear crawlers de IA
      • Configuração de arquivos robots.txt e .htaccess → retorna uma página de erro quando há requisições de crawlers de IA
  • Resultados da análise de tráfego
    • No caso do Diaspora, 70% do tráfego era de crawlers de IA
      • User-Agent da OpenAI: 25%
      • Amazon: 15%
      • Anthropic: 4,3%
    • A participação de tráfego dos crawlers do Google e do Bing ficou em menos de 1%
  • Problema dos relatórios de bugs gerados por IA
    • O projeto Curl enfrentou problemas com relatórios de bugs gerados por IA
      • A maioria dos bugs reportados era, na verdade, alucinação (hallucination)
    • CPython, pip, urllib3 e Requests → estão gastando tempo processando relatórios de segurança gerados por IA
      • Baixa confiabilidade → ainda assim precisam ser verificados → aumentando a carga sobre os mantenedores

Conclusão

  • Crawlers de IA e relatórios de bugs gerados por IA impõem uma grande carga à comunidade de código aberto
  • Projetos de código aberto têm menos recursos do que produtos comerciais e, por serem baseados em comunidade, são mais vulneráveis a esses problemas

1 comentários

 
GN⁺ 2025-03-21
Comentários do Hacker News
  • Muitas pessoas que operam infraestrutura de internet em larga escala estão tendo experiências semelhantes

    • Há relatos compartilhando abusos de crawlers de IA, além de um texto que reúne e organiza esses problemas em um só lugar
    • Algumas startups resolveram o problema e reembolsaram os custos, mas o Facebook não responde aos emails
  • A Fastly oferece serviços de segurança gratuitos para projetos FOSS

    • Recentemente, houve um aumento nos pedidos relacionados a raspagem por IA
  • Foi surpreendente ver o próprio projeto aparecer na imagem de prévia

    • O projeto está sendo implantado em xeiaso.net para verificar seu funcionamento em um ambiente real
  • Não só a infraestrutura FOSS, mas o próprio acesso anônimo à internet está sob ameaça

    • Novos bots conseguem resolver CAPTCHAs e agir como usuários reais
    • É possível que sites passem a exigir autenticação com cartão de crédito ou algo como Worldcoin
  • Recentemente, uma instância do Forgejo foi atacada

    • O disco ficou cheio de arquivos zip gerados, e bloquear faixas de IP da Alibaba Cloud reduziu o ataque
    • Recomenda-se alterar a configuração DISABLE_DOWNLOAD_SOURCE_ARCHIVES para true
  • No passado, o robots.txt foi criado para resolver problemas com mecanismos de busca, mas os novos indexadores estão ignorando isso

    • Defende-se que sejam aplicadas sanções legais
  • O domínio do Google e da publicidade sobre a web vai enfraquecer

    • Por causa dos CAPTCHAs, os mecanismos de busca não conseguirão indexar sites, o que reduzirá seu valor
  • Usa-se o LLaMa para gerar postagens contraditórias e induzir confusão informacional

  • A VideoLAN também está tendo seu fórum e Gitlab atacados por bots de empresas de IA

    • A maioria dos bots ignora o robots.txt
  • Pode surgir uma web que não seja indexada por mecanismos de busca

    • Como solução para scraping por LLM, foi proposta a exigência de prova de trabalho