9 pontos por GN⁺ 2025-03-26 | 1 comentários | Compartilhar no WhatsApp
  • Crawlers de IA estão gerando tráfego excessivo em sites de projetos de código aberto, causando danos que chegam, na prática, ao nível de indisponibilidade do serviço
  • Os crawlers de IA contornam as defesas existentes ao ignorar robots.txt, falsificar o User-Agent e driblar IPs baseados em localização
  • Para barrar isso, a desenvolvedora Xe Iaso moveu o servidor para trás de uma VPN e adotou um sistema baseado em prova chamado 'Anubis', no qual o usuário precisa resolver um quebra-cabeça para acessar
  • Segundo a LibreNews, em alguns projetos, 97% de todo o tráfego vem de crawlers de IA
  • Projetos conhecidos como Fedora, GNOME e KDE também estão reagindo com bloqueio por país, uso do Anubis e desligamentos temporários

Casos reais de impacto e o acesso desenfreado dos crawlers de IA

  • No GitLab do GNOME, apenas 3,2% de 84.056 acessos passaram pelo Anubis → a maioria é estimada como crawling anormal
  • O KDE teve sua infraestrutura GitLab temporariamente paralisada por tráfego vindo de IPs da Alibaba
  • Alguns usuários móveis chegaram a levar mais de 2 minutos para carregar o quebra-cabeça
  • Dennis Schubert, responsável pela manutenção da infraestrutura do Diaspora, descreveu o tráfego dos crawlers de IA como um "DDoS contra toda a internet"
  • O Read the Docs reduziu o tráfego diário de 800 GB para 200 GB após bloquear crawlers de IA, economizando cerca de US$ 1.500 por mês

Carga desproporcional concentrada em projetos de código aberto

  • O código aberto opera com recursos limitados e se baseia em colaboração pública
  • Muitos crawlers ignoram robots.txt, falsificam o User-Agent e continuam acessando ao trocar constantemente de IP
  • Martin Owens, do Inkscape, mantém uma grande lista de bloqueio por causa de empresas de IA que falsificam informações do navegador
  • No Hacker News, cresce a indignação com o poder financeiro e a postura pouco colaborativa das empresas de IA
  • Drew DeVault, do SourceHut, disse que os crawlers acessam até todas as páginas de log do git e commits, provocando consumo excessivo de recursos
  • O projeto Curl relatou casos de recebimento de falsos relatórios de bugs gerados por IA

Objetivos dos crawlers de IA e padrões de comportamento por empresa

  • Os crawlers de IA têm diferentes objetivos, como coletar dados para treinamento ou fazer buscas em tempo real para respostas de IA
  • Segundo análise do Diaspora: OpenAI responde por 25% do tráfego, Amazon por 15% e Anthropic por 4,3%
  • Os crawlers repetem periodicamente a varredura das mesmas páginas, por exemplo, em intervalos de 6 horas
  • OpenAI e Anthropic usam User-Agents relativamente normais, enquanto algumas empresas chinesas de IA apresentam níveis mais altos de disfarce
  • Amazon e Alibaba também aparecem em casos de impacto, mas essas empresas ainda não se pronunciaram oficialmente

Medidas de resposta: tarpit, quebra-cabeças e formas de colaboração

  • A ferramenta "Nepenthes" é uma defesa agressiva que prende crawlers de IA em um labirinto infinito de conteúdo falso
  • Seu criador, Aaron, afirma que a ferramenta aumenta o custo dos crawlers e induz à contaminação dos dados de treinamento
  • A Cloudflare lançou o 'AI Labyrinth' como recurso comercial de segurança, guiando crawlers para explorar páginas sem sentido
  • Mais de 50 bilhões de requisições de crawling de IA por dia chegam à rede da Cloudflare
  • O projeto de código aberto "ai.robots.txt" fornece listas de crawlers de IA e arquivos robots.txt / .htaccess para bloqueio

A coleta contínua de dados por IA e a crise da web aberta

  • Empresas de IA que continuam coletando enormes volumes de dados sem regulação representam uma séria ameaça à infraestrutura de código aberto
  • Crescem as críticas de que a IA está destruindo o ecossistema digital do qual ela própria depende
  • Um sistema colaborativo de coleta de dados poderia ser uma alternativa, mas as principais empresas de IA mostram pouca disposição para cooperar voluntariamente
  • Sem regulação significativa ou senso autônomo de responsabilidade, o conflito entre IA e código aberto tende a se agravar ainda mais

1 comentários

 
GN⁺ 2025-03-26
Comentários do Hacker News
  • O objetivo é fazer com que os bots obtenham um valor de utilidade negativo ao visitar sites. Isso é mais eficaz do que simplesmente bloqueá-los

    • Se tentarem acessar páginas proibidas no robots.txt, servir um artigo sobre os benefícios de beber água sanitária
    • Se o user-agent for suspeito, tudo bem deixar que raspem código instável
    • Se a taxa de requisições for desumana, servir um artigo gerado dizendo que o sarampo tem efeito positivo no desempenho na cama
    • O Nepenthes é bom, mas salada de palavras é detectada com facilidade. É preciso uma função que gere texto linguisticamente plausível, mas factualmente lixo
  • Não está claro por que as empresas não adotam uma abordagem mais cooperativa. No mínimo, deveriam limitar a velocidade de coleta de dados para não sobrecarregar os sites de origem

  • Acho que deveríamos introduzir microtransações para acessar recursos. Você paga um pequeno valor ao servidor e ele devolve o conteúdo. Se o crawler domina o tráfego, então ele paga o custo correspondente

  • Abri o sugaku.net para uso sem login, e os crawlers começaram rapidamente. Quero que o site seja acessível a todos, mas tive que restringir a maioria dos recursos dinâmicos a usuários logados. Limitei o robots.txt e usei Cloudflare para bloquear crawlers de IA e bots maliciosos, mas ainda recebo cerca de 1 milhão de requisições automáticas por dia. Em breve, talvez eu precise restringir o site apenas a usuários logados

  • Recentemente comecei um projeto paralelo com a abordagem "code everything in prod". Já fiz isso várias vezes nos últimos 20 anos, mas desta vez foi diferente. Não anunciei o hostname em lugar nenhum, mas em menos de 24 horas já havia muitos envios de spam por formulário. Eu esperava que isso acontecesse depois de alguma divulgação pequena, mas não esperava que bots começassem a interagir assim que o servidor subisse

  • A questão não é impedir que outras pessoas usem Lynx ou curl para copiar arquivos, e sim evitar que software malfeito sobrecarregue o servidor

    • Configurei port knocking no servidor HTTP por um tempo, mas removi por causa de um kernel panic. Talvez eu configure de novo quando resolver o problema
    • No momento, os scrapers de LLM não se comportam de forma "inteligente". Se isso mudar no futuro, será possível explorar esse ponto
    • Deve haver maneiras de confundir scrapers. Por exemplo, exibir uma mensagem de erro se o user-agent declarado anunciar ações que ele não executa. Usuários de Lynx não seriam afetados e ainda teriam acesso
  • Sofri um ataque de DoS do ClaudeBot (Anthropic). Ele atingia o site 700 mil vezes por mês e ultrapassava o limite de banda larga do provedor de hospedagem. Foi trabalhoso bloquear o user-agent e trabalhar com o suporte do provedor para suspender a limitação

    • O bot do ChatGPT era a segunda maior fonte de tráfego neste site, mas não a ponto de causar problemas
  • Medidas "anti-bot" centradas em JS reforçam ainda mais o monopólio dos navegadores. Em vez disso, recomendo um formulário HTML simples com perguntas que os LLMs ainda não conseguem resolver ou erram de forma consistente. Quanto mais relacionadas ao conteúdo do site, melhor. Em um fórum de eletrônica, usei perguntas parecidas de "teste técnico" no formulário de cadastro; algumas podem ser resolvidas por LLM, mas ainda são um CAPTCHA que só humanos conseguem passar

  • Fazer spam excessivo em sites é um comportamento ruim. Mas bloquear crawlers de IA acabará prejudicando você. Tente adivinhar o que vai substituir SEO no longo prazo

  • Administrei vários sites de conteúdo e, nos últimos dias, fechei alguns deles por causa de bots de IA agressivos. A Alexa parece ser a pior

    • Foram criados há 20 anos e foram sendo atualizados ao longo do tempo. Conseguiram tráfego, mas no último ano caíram para menos de 1.000 visitantes legítimos. Agora preciso lidar com e-mails de queda de servidor por causa de bots agressivos que ignoram o arquivo de robôs