A infraestrutura FOSS está sendo atacada por empresas de IA

(thelibre.news)

1 pontos por GN⁺ 2025-03-21 | 1 comentários | Compartilhar no WhatsApp

Drew DeVault (fundador do SourceHut) alertou que crawlers de IA estão ignorando o robots.txt e causando falhas graves no SourceHut
A infraestrutura GitLab do KDE também ficou indisponível devido a um ataque de crawlers de IA originado de faixas de IP da Alibaba
Problemas dos crawlers de IA
- Crawlers de IA ignoram os requisitos do robots.txt
  - Rastreiam todas as páginas e commits de git blame e git log
  - Fazem requisições com User-Agent aleatórios e a partir de dezenas de milhares de IPs → disfarçando-se como tráfego de usuários comuns
- É difícil bloquear os crawlers → trabalhos de alta prioridade acabam atrasados por semanas ou meses
Reclamações dos administradores de sistema
- O problema dos crawlers de IA não é um caso isolado, mas sim um problema generalizado
  - Muitos administradores de sistema estão enfrentando o mesmo problema
  - OpenAI e Anthropic configuram User-Agent precisos, mas empresas chinesas de IA não fazem isso
Resposta do KDE GitLab
- Bloqueou bots disfarçados de MS Edge → solução temporária
- O GNOME aplicou limite de velocidade para usuários não autenticados ao visualizar merge requests e commits
- Adoção do Anubis → o navegador só recebe acesso após resolver um desafio
Problemas do Anubis
- Também afeta os usuários → é necessário gastar tempo resolvendo o desafio
  - Quando um link é compartilhado em salas de chat, ocorre sobrecarga → tempos de espera de 1 a 2 minutos
97% do tráfego é de bots
- No GNOME, houve 81.000 requisições em 2 horas e meia → 97% eram crawlers de IA
- Alguns projetos tiveram redução de 75% no tráfego após bloquear crawlers de IA
Problemas em outros projetos FOSS
- Fedora → bloqueou todos os IPs do Brasil para barrar crawlers
- Inkscape → os crawlers falsificavam informações do navegador → bloqueio em massa de IPs
- Frama Software → criou uma lista de bloqueio com 460 mil IPs
Projetos de resposta a crawlers de IA
- ai.robots.txt → fornece uma lista aberta para bloquear crawlers de IA
  - Configuração de arquivos robots.txt e .htaccess → retorna uma página de erro quando há requisições de crawlers de IA
Resultados da análise de tráfego
- No caso do Diaspora, 70% do tráfego era de crawlers de IA
  - User-Agent da OpenAI: 25%
  - Amazon: 15%
  - Anthropic: 4,3%
- A participação de tráfego dos crawlers do Google e do Bing ficou em menos de 1%
Problema dos relatórios de bugs gerados por IA
- O projeto Curl enfrentou problemas com relatórios de bugs gerados por IA
  - A maioria dos bugs reportados era, na verdade, alucinação (hallucination)
- CPython, pip, urllib3 e Requests → estão gastando tempo processando relatórios de segurança gerados por IA
  - Baixa confiabilidade → ainda assim precisam ser verificados → aumentando a carga sobre os mantenedores

Conclusão

Crawlers de IA e relatórios de bugs gerados por IA impõem uma grande carga à comunidade de código aberto
Projetos de código aberto têm menos recursos do que produtos comerciais e, por serem baseados em comunidade, são mais vulneráveis a esses problemas

1 comentários

GN⁺ 2025-03-21

Comentários do Hacker News

Muitas pessoas que operam infraestrutura de internet em larga escala estão tendo experiências semelhantes
- Há relatos compartilhando abusos de crawlers de IA, além de um texto que reúne e organiza esses problemas em um só lugar
- Algumas startups resolveram o problema e reembolsaram os custos, mas o Facebook não responde aos emails
A Fastly oferece serviços de segurança gratuitos para projetos FOSS
- Recentemente, houve um aumento nos pedidos relacionados a raspagem por IA
Foi surpreendente ver o próprio projeto aparecer na imagem de prévia
- O projeto está sendo implantado em xeiaso.net para verificar seu funcionamento em um ambiente real
Não só a infraestrutura FOSS, mas o próprio acesso anônimo à internet está sob ameaça
- Novos bots conseguem resolver CAPTCHAs e agir como usuários reais
- É possível que sites passem a exigir autenticação com cartão de crédito ou algo como Worldcoin
Recentemente, uma instância do Forgejo foi atacada
- O disco ficou cheio de arquivos zip gerados, e bloquear faixas de IP da Alibaba Cloud reduziu o ataque
- Recomenda-se alterar a configuração DISABLE_DOWNLOAD_SOURCE_ARCHIVES para true
No passado, o robots.txt foi criado para resolver problemas com mecanismos de busca, mas os novos indexadores estão ignorando isso
- Defende-se que sejam aplicadas sanções legais
O domínio do Google e da publicidade sobre a web vai enfraquecer
- Por causa dos CAPTCHAs, os mecanismos de busca não conseguirão indexar sites, o que reduzirá seu valor
Usa-se o LLaMa para gerar postagens contraditórias e induzir confusão informacional
A VideoLAN também está tendo seu fórum e Gitlab atacados por bots de empresas de IA
- A maioria dos bots ignora o robots.txt
Pode surgir uma web que não seja indexada por mecanismos de busca
- Como solução para scraping por LLM, foi proposta a exigência de prova de trabalho

A infraestrutura FOSS está sendo atacada por empresas de IA

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News