- Crawlers de IA estão gerando tráfego excessivo em sites de projetos de código aberto, causando danos que chegam, na prática, ao nível de indisponibilidade do serviço
- Os crawlers de IA contornam as defesas existentes ao ignorar
robots.txt, falsificar o User-Agent e driblar IPs baseados em localização
- Para barrar isso, a desenvolvedora Xe Iaso moveu o servidor para trás de uma VPN e adotou um sistema baseado em prova chamado 'Anubis', no qual o usuário precisa resolver um quebra-cabeça para acessar
- Segundo a LibreNews, em alguns projetos, 97% de todo o tráfego vem de crawlers de IA
- Projetos conhecidos como Fedora, GNOME e KDE também estão reagindo com bloqueio por país, uso do Anubis e desligamentos temporários
Casos reais de impacto e o acesso desenfreado dos crawlers de IA
- No GitLab do GNOME, apenas 3,2% de 84.056 acessos passaram pelo Anubis → a maioria é estimada como crawling anormal
- O KDE teve sua infraestrutura GitLab temporariamente paralisada por tráfego vindo de IPs da Alibaba
- Alguns usuários móveis chegaram a levar mais de 2 minutos para carregar o quebra-cabeça
- Dennis Schubert, responsável pela manutenção da infraestrutura do Diaspora, descreveu o tráfego dos crawlers de IA como um "DDoS contra toda a internet"
- O Read the Docs reduziu o tráfego diário de 800 GB para 200 GB após bloquear crawlers de IA, economizando cerca de US$ 1.500 por mês
Carga desproporcional concentrada em projetos de código aberto
- O código aberto opera com recursos limitados e se baseia em colaboração pública
- Muitos crawlers ignoram
robots.txt, falsificam o User-Agent e continuam acessando ao trocar constantemente de IP
- Martin Owens, do Inkscape, mantém uma grande lista de bloqueio por causa de empresas de IA que falsificam informações do navegador
- No Hacker News, cresce a indignação com o poder financeiro e a postura pouco colaborativa das empresas de IA
- Drew DeVault, do SourceHut, disse que os crawlers acessam até todas as páginas de log do git e commits, provocando consumo excessivo de recursos
- O projeto Curl relatou casos de recebimento de falsos relatórios de bugs gerados por IA
Objetivos dos crawlers de IA e padrões de comportamento por empresa
- Os crawlers de IA têm diferentes objetivos, como coletar dados para treinamento ou fazer buscas em tempo real para respostas de IA
- Segundo análise do Diaspora: OpenAI responde por 25% do tráfego, Amazon por 15% e Anthropic por 4,3%
- Os crawlers repetem periodicamente a varredura das mesmas páginas, por exemplo, em intervalos de 6 horas
- OpenAI e Anthropic usam User-Agents relativamente normais, enquanto algumas empresas chinesas de IA apresentam níveis mais altos de disfarce
- Amazon e Alibaba também aparecem em casos de impacto, mas essas empresas ainda não se pronunciaram oficialmente
Medidas de resposta: tarpit, quebra-cabeças e formas de colaboração
- A ferramenta "Nepenthes" é uma defesa agressiva que prende crawlers de IA em um labirinto infinito de conteúdo falso
- Seu criador, Aaron, afirma que a ferramenta aumenta o custo dos crawlers e induz à contaminação dos dados de treinamento
- A Cloudflare lançou o 'AI Labyrinth' como recurso comercial de segurança, guiando crawlers para explorar páginas sem sentido
- Mais de 50 bilhões de requisições de crawling de IA por dia chegam à rede da Cloudflare
- O projeto de código aberto "ai.robots.txt" fornece listas de crawlers de IA e arquivos
robots.txt / .htaccess para bloqueio
A coleta contínua de dados por IA e a crise da web aberta
- Empresas de IA que continuam coletando enormes volumes de dados sem regulação representam uma séria ameaça à infraestrutura de código aberto
- Crescem as críticas de que a IA está destruindo o ecossistema digital do qual ela própria depende
- Um sistema colaborativo de coleta de dados poderia ser uma alternativa, mas as principais empresas de IA mostram pouca disposição para cooperar voluntariamente
- Sem regulação significativa ou senso autônomo de responsabilidade, o conflito entre IA e código aberto tende a se agravar ainda mais
1 comentários
Comentários do Hacker News
O objetivo é fazer com que os bots obtenham um valor de utilidade negativo ao visitar sites. Isso é mais eficaz do que simplesmente bloqueá-los
robots.txt, servir um artigo sobre os benefícios de beber água sanitáriaNão está claro por que as empresas não adotam uma abordagem mais cooperativa. No mínimo, deveriam limitar a velocidade de coleta de dados para não sobrecarregar os sites de origem
Acho que deveríamos introduzir microtransações para acessar recursos. Você paga um pequeno valor ao servidor e ele devolve o conteúdo. Se o crawler domina o tráfego, então ele paga o custo correspondente
Abri o sugaku.net para uso sem login, e os crawlers começaram rapidamente. Quero que o site seja acessível a todos, mas tive que restringir a maioria dos recursos dinâmicos a usuários logados. Limitei o
robots.txte usei Cloudflare para bloquear crawlers de IA e bots maliciosos, mas ainda recebo cerca de 1 milhão de requisições automáticas por dia. Em breve, talvez eu precise restringir o site apenas a usuários logadosRecentemente comecei um projeto paralelo com a abordagem "code everything in prod". Já fiz isso várias vezes nos últimos 20 anos, mas desta vez foi diferente. Não anunciei o hostname em lugar nenhum, mas em menos de 24 horas já havia muitos envios de spam por formulário. Eu esperava que isso acontecesse depois de alguma divulgação pequena, mas não esperava que bots começassem a interagir assim que o servidor subisse
A questão não é impedir que outras pessoas usem Lynx ou curl para copiar arquivos, e sim evitar que software malfeito sobrecarregue o servidor
Sofri um ataque de DoS do ClaudeBot (Anthropic). Ele atingia o site 700 mil vezes por mês e ultrapassava o limite de banda larga do provedor de hospedagem. Foi trabalhoso bloquear o user-agent e trabalhar com o suporte do provedor para suspender a limitação
Medidas "anti-bot" centradas em JS reforçam ainda mais o monopólio dos navegadores. Em vez disso, recomendo um formulário HTML simples com perguntas que os LLMs ainda não conseguem resolver ou erram de forma consistente. Quanto mais relacionadas ao conteúdo do site, melhor. Em um fórum de eletrônica, usei perguntas parecidas de "teste técnico" no formulário de cadastro; algumas podem ser resolvidas por LLM, mas ainda são um CAPTCHA que só humanos conseguem passar
Fazer spam excessivo em sites é um comportamento ruim. Mas bloquear crawlers de IA acabará prejudicando você. Tente adivinhar o que vai substituir SEO no longo prazo
Administrei vários sites de conteúdo e, nos últimos dias, fechei alguns deles por causa de bots de IA agressivos. A Alexa parece ser a pior