LWN está sofrendo o ataque de scraper mais grave de sua história
(social.kernel.org)- LWN.net está sofrendo um grande ataque DDoS baseado em scraping vindo de dezenas de milhares de endereços, e o tempo de resposta do site está degradado
- Jonathan Corbet menciona que a situação exige defender o site de scrapers ligados a IA; ele diz que não quer impor barreiras de acesso aos leitores, mas isso pode se tornar necessário
- Na comunidade, foi levantada a possibilidade de empresas comerciais de coleta de dados como a Bright Data estarem por trás do ataque, e vários usuários relataram picos de tráfego semelhantes
- Alguns estão reagindo com assinaturas RSS, geração de site estático, tarpit para LLM e outras medidas; também foram compartilhados casos de ataques vindos de IPs de grandes nuvens como Azure, Google e AliCloud
- O caso chama atenção por mostrar os danos que a coleta de dados para IA causa à estabilidade do ecossistema web e à sustentabilidade dos criadores
Grande ataque de scraper contra o LWN.net
-
Jonathan Corbet afirmou que o LWN.net está sofrendo o ataque de scraper mais grave de sua história
- O ataque assume a forma de um DDoS com dezenas de milhares de endereços IP, reduzindo a responsividade do site
- Ele comentou: “Defender o LWN de scrapers ligados a IA é algo que eu não queria ter de fazer”, acrescentando que não quer adotar medidas que criem barreiras para os leitores, embora isso possa se tornar necessário
-
Corbet disse que não consegue identificar o autor do ataque e mencionou a possibilidade de envolvimento da Bright Data ou de concorrentes semelhantes
- Em alguns momentos a carga de CPU fica severa; é possível ampliar os servidores, mas ele observou que “é irritante ter de pagar para alimentar esse tipo de gente com artigos escritos com tanto esforço”
Reações e sugestões da comunidade
- Tristan Colgate-McFarlane apontou que mecanismos de busca estão priorizando conteúdo copiado, tirando tráfego e receita publicitária dos autores originais
- Vários usuários relataram ter vivenciado aumento repentino de tráfego de scrapers de IA
- Light Owl disse que o tráfego de seu site aumentou 20 vezes em relação ao normal
- Ben Tasker explicou que está bloqueando parte das requisições com uma armadilha de robôs do tipo LLM tarpit
- Alguns também relataram ataques vindos de IPs de grandes provedores de nuvem como Azure, Google e AliCloud
- Dec, mx alex tax1a e David Gerard compartilharam casos de bloqueio de faixas de IP da MSFT, Google e Ali
Discussão sobre medidas de resposta
- Riku Voipio sugeriu usar um servidor exclusivo para assinantes (
subscriber.lwn.net), mas Corbet respondeu que isso pode dificultar a entrada de novos assinantes - Jani Nikula propôs acesso restrito a usuários registrados, mas Corbet disse que isso já enfrenta o problema de bots criando contas, o que reduz a eficácia da medida
- trademark sugeriu sharding de conteúdo para melhorar a eficiência do cache, mas Corbet respondeu que o cache não é o problema
Relatos de experiência de outros operadores de sites
- Vários administradores relataram padrões de ataque semelhantes
- Dec disse ter visto varreduras por vulnerabilidades em PHP e tentativas de login em
wp-adminvindas de IPs da MSFT - David Gerard explicou que está reagindo na RationalWiki com verificação de cookie baseada em JavaScript, embora isso tenha o efeito colateral de bloquear até mesmo o Googlebot
- Catherine (whitequark) comentou que está reduzindo a carga do servidor apenas com o tratamento de respostas 404
- Dec disse ter visto varreduras por vulnerabilidades em PHP e tentativas de login em
Percepção dentro da comunidade
- Alguns disseram que “a web está realmente quebrando”, criticando o fato de que o scraping para IA está acelerando o colapso do ecossistema web
- Ayush Agarwal apontou que até a comunidade do kernel precisa reconhecer a realidade de que o uso de LLM está prejudicando sites pequenos
- Martin Roukala comentou em tom autodepreciativo que o problema surgiu por ser “relevante demais”, mas Jani Nikula respondeu que “scrapers não ligam para esse tipo de coisa”
1 comentários
Comentários do Hacker News
Fico me perguntando quem opera esses scrapers agressivos
Se forem laboratórios de IA, raspar muitos sites ao mesmo tempo pode ser eficiente para coletar dados, mas não entendo por que sobrecarregariam sites populares assumindo risco reputacional
Provavelmente testaram por alto um scraper gerado pela própria IA e o colocaram em produção direto
Além disso, eles escondem a identidade por meio de
residential IP providers, então também não há risco reputacionalMesmo que fosse uma empresa grande como OpenAI ou Anthropic, acho que as pessoas simplesmente deixariam passar
Com ferramentas como Claude Cowork, o próprio usuário pode criar um crawler; eu mesmo já raspei o site da NASA e bombardeei páginas 404, sendo bloqueado temporariamente
No fim, até usuários com “boas intenções” estão mudando os padrões de tráfego da web
Estatísticas relacionadas podem ser vistas no Cloudflare AI Insights
Tirando o GPTBot da OpenAI, quase todos eram empresas pequenas das quais eu nunca tinha ouvido falar, e algumas até escondiam o User-Agent
Os dados já estão no Common Crawl, então não entendo por que precisam raspar de novo
Um grande problema é que a IA revende código open source como se tivesse sido escrito por ela, driblando licenças
Não é só código; estão raspando outros tipos de conteúdo do mesmo jeito
Só mudou levemente os nomes das variáveis, mas a estrutura era igual
Se alguém fizesse isso numa empresa, seria demitido na hora
Mas quando a IA faz, é estranho ver alegarem legitimidade moral dizendo que é “fair use”
Esse scraping pode não ser apenas coleta de dados para IA
Sites de FOSS estão sendo atacados continuamente, e isso não fecha economicamente
Talvez a intenção seja desorganizar a indústria de tecnologia ou a comunidade open source
Mesmo sendo projetos sem fins lucrativos, receberam tráfego em nível de DDoS e no fim tiveram de colocar um muro de login
A maioria usava IPs residenciais, e a raiz do problema parece ser gente que acha que “tudo na internet me pertence”
Meu blog é chato demais, então não sofre com scraping
Como diz a frase “um ataque DDoS envolvendo dezenas de milhares de endereços”, o ataque é extremamente distribuído
Até sites pequenos recebem tráfego vindo de milhares de IPs
A BrightData é o exemplo clássico; é mais caro que IPs de datacenter, mas também é mais difícil de bloquear
a pior interpretação é que são simplesmente desenvolvedores antissociais soltando bots sem pensar
Proxy residencial deveria, na prática, ser tratado como malware
Deveria entrar nas definições de antivírus e ser removido também das lojas de aplicativos
Fico me perguntando se isso é mesmo scraping para treinamento de IA
Se não dá para distinguir de um DDoS comum, talvez não dê para ter certeza
Parece que o ataque parou agora
A página principal também está carregando normalmente
Para bloquear scrapers no meu blog, eu sobrescrevo métodos de JavaScript e esvazio o conteúdo da página
Se esconder elementos com Shadow DOM, dá para dificultar ainda mais
Só que esse tipo de método também causa problemas para ferramentas de teste como Playwright ou Selenium e para a indexação em mecanismos de busca
Teve gente dizendo que “empresas de IA tentam paralisar sites concorrentes com DDoS para monopolizar os dados”
Raspar um site desses não traria nenhum ganho para IA, e parece mais paranoia excessiva