- Drew DeVault (fundador do SourceHut) alertou que crawlers de IA estão ignorando o robots.txt e causando falhas graves no SourceHut
- A infraestrutura GitLab do KDE também ficou indisponível devido a um ataque de crawlers de IA originado de faixas de IP da Alibaba
- Problemas dos crawlers de IA
- Crawlers de IA ignoram os requisitos do robots.txt
- Rastreiam todas as páginas e commits de git blame e git log
- Fazem requisições com User-Agent aleatórios e a partir de dezenas de milhares de IPs → disfarçando-se como tráfego de usuários comuns
- É difícil bloquear os crawlers → trabalhos de alta prioridade acabam atrasados por semanas ou meses
- Reclamações dos administradores de sistema
- O problema dos crawlers de IA não é um caso isolado, mas sim um problema generalizado
- Muitos administradores de sistema estão enfrentando o mesmo problema
- OpenAI e Anthropic configuram User-Agent precisos, mas empresas chinesas de IA não fazem isso
- Resposta do KDE GitLab
- Bloqueou bots disfarçados de MS Edge → solução temporária
- O GNOME aplicou limite de velocidade para usuários não autenticados ao visualizar merge requests e commits
- Adoção do Anubis → o navegador só recebe acesso após resolver um desafio
- Problemas do Anubis
- Também afeta os usuários → é necessário gastar tempo resolvendo o desafio
- Quando um link é compartilhado em salas de chat, ocorre sobrecarga → tempos de espera de 1 a 2 minutos
- 97% do tráfego é de bots
- No GNOME, houve 81.000 requisições em 2 horas e meia → 97% eram crawlers de IA
- Alguns projetos tiveram redução de 75% no tráfego após bloquear crawlers de IA
- Problemas em outros projetos FOSS
- Fedora → bloqueou todos os IPs do Brasil para barrar crawlers
- Inkscape → os crawlers falsificavam informações do navegador → bloqueio em massa de IPs
- Frama Software → criou uma lista de bloqueio com 460 mil IPs
- Projetos de resposta a crawlers de IA
- ai.robots.txt → fornece uma lista aberta para bloquear crawlers de IA
- Configuração de arquivos robots.txt e .htaccess → retorna uma página de erro quando há requisições de crawlers de IA
- Resultados da análise de tráfego
- No caso do Diaspora, 70% do tráfego era de crawlers de IA
- User-Agent da OpenAI: 25%
- Amazon: 15%
- Anthropic: 4,3%
- A participação de tráfego dos crawlers do Google e do Bing ficou em menos de 1%
- Problema dos relatórios de bugs gerados por IA
- O projeto Curl enfrentou problemas com relatórios de bugs gerados por IA
- A maioria dos bugs reportados era, na verdade, alucinação (hallucination)
- CPython, pip, urllib3 e Requests → estão gastando tempo processando relatórios de segurança gerados por IA
- Baixa confiabilidade → ainda assim precisam ser verificados → aumentando a carga sobre os mantenedores
Conclusão
- Crawlers de IA e relatórios de bugs gerados por IA impõem uma grande carga à comunidade de código aberto
- Projetos de código aberto têm menos recursos do que produtos comerciais e, por serem baseados em comunidade, são mais vulneráveis a esses problemas
1 comentários
Comentários do Hacker News
Muitas pessoas que operam infraestrutura de internet em larga escala estão tendo experiências semelhantes
A Fastly oferece serviços de segurança gratuitos para projetos FOSS
Foi surpreendente ver o próprio projeto aparecer na imagem de prévia
Não só a infraestrutura FOSS, mas o próprio acesso anônimo à internet está sob ameaça
Recentemente, uma instância do Forgejo foi atacada
DISABLE_DOWNLOAD_SOURCE_ARCHIVESparatrueNo passado, o
robots.txtfoi criado para resolver problemas com mecanismos de busca, mas os novos indexadores estão ignorando issoO domínio do Google e da publicidade sobre a web vai enfraquecer
Usa-se o LLaMa para gerar postagens contraditórias e induzir confusão informacional
A VideoLAN também está tendo seu fórum e Gitlab atacados por bots de empresas de IA
robots.txtPode surgir uma web que não seja indexada por mecanismos de busca