1 pontos por GN⁺ 2026-01-19 | 1 comentários | Compartilhar no WhatsApp
  • LWN.net está sofrendo um grande ataque DDoS baseado em scraping vindo de dezenas de milhares de endereços, e o tempo de resposta do site está degradado
  • Jonathan Corbet menciona que a situação exige defender o site de scrapers ligados a IA; ele diz que não quer impor barreiras de acesso aos leitores, mas isso pode se tornar necessário
  • Na comunidade, foi levantada a possibilidade de empresas comerciais de coleta de dados como a Bright Data estarem por trás do ataque, e vários usuários relataram picos de tráfego semelhantes
  • Alguns estão reagindo com assinaturas RSS, geração de site estático, tarpit para LLM e outras medidas; também foram compartilhados casos de ataques vindos de IPs de grandes nuvens como Azure, Google e AliCloud
  • O caso chama atenção por mostrar os danos que a coleta de dados para IA causa à estabilidade do ecossistema web e à sustentabilidade dos criadores

Grande ataque de scraper contra o LWN.net

  • Jonathan Corbet afirmou que o LWN.net está sofrendo o ataque de scraper mais grave de sua história

    • O ataque assume a forma de um DDoS com dezenas de milhares de endereços IP, reduzindo a responsividade do site
    • Ele comentou: “Defender o LWN de scrapers ligados a IA é algo que eu não queria ter de fazer”, acrescentando que não quer adotar medidas que criem barreiras para os leitores, embora isso possa se tornar necessário
  • Corbet disse que não consegue identificar o autor do ataque e mencionou a possibilidade de envolvimento da Bright Data ou de concorrentes semelhantes

    • Em alguns momentos a carga de CPU fica severa; é possível ampliar os servidores, mas ele observou que “é irritante ter de pagar para alimentar esse tipo de gente com artigos escritos com tanto esforço”

Reações e sugestões da comunidade

  • Tristan Colgate-McFarlane apontou que mecanismos de busca estão priorizando conteúdo copiado, tirando tráfego e receita publicitária dos autores originais
  • Vários usuários relataram ter vivenciado aumento repentino de tráfego de scrapers de IA
    • Light Owl disse que o tráfego de seu site aumentou 20 vezes em relação ao normal
    • Ben Tasker explicou que está bloqueando parte das requisições com uma armadilha de robôs do tipo LLM tarpit
  • Alguns também relataram ataques vindos de IPs de grandes provedores de nuvem como Azure, Google e AliCloud
    • Dec, mx alex tax1a e David Gerard compartilharam casos de bloqueio de faixas de IP da MSFT, Google e Ali

Discussão sobre medidas de resposta

  • Riku Voipio sugeriu usar um servidor exclusivo para assinantes (subscriber.lwn.net), mas Corbet respondeu que isso pode dificultar a entrada de novos assinantes
  • Jani Nikula propôs acesso restrito a usuários registrados, mas Corbet disse que isso já enfrenta o problema de bots criando contas, o que reduz a eficácia da medida
  • trademark sugeriu sharding de conteúdo para melhorar a eficiência do cache, mas Corbet respondeu que o cache não é o problema

Relatos de experiência de outros operadores de sites

  • Vários administradores relataram padrões de ataque semelhantes
    • Dec disse ter visto varreduras por vulnerabilidades em PHP e tentativas de login em wp-admin vindas de IPs da MSFT
    • David Gerard explicou que está reagindo na RationalWiki com verificação de cookie baseada em JavaScript, embora isso tenha o efeito colateral de bloquear até mesmo o Googlebot
    • Catherine (whitequark) comentou que está reduzindo a carga do servidor apenas com o tratamento de respostas 404

Percepção dentro da comunidade

  • Alguns disseram que “a web está realmente quebrando”, criticando o fato de que o scraping para IA está acelerando o colapso do ecossistema web
  • Ayush Agarwal apontou que até a comunidade do kernel precisa reconhecer a realidade de que o uso de LLM está prejudicando sites pequenos
  • Martin Roukala comentou em tom autodepreciativo que o problema surgiu por ser “relevante demais”, mas Jani Nikula respondeu que “scrapers não ligam para esse tipo de coisa”

1 comentários

 
GN⁺ 2026-01-19
Comentários do Hacker News
  • Fico me perguntando quem opera esses scrapers agressivos
    Se forem laboratórios de IA, raspar muitos sites ao mesmo tempo pode ser eficiente para coletar dados, mas não entendo por que sobrecarregariam sites populares assumindo risco reputacional

    • Em casos assim, muitas vezes falta capacidade técnica ou consideração
      Provavelmente testaram por alto um scraper gerado pela própria IA e o colocaram em produção direto
      Além disso, eles escondem a identidade por meio de residential IP providers, então também não há risco reputacional
      Mesmo que fosse uma empresa grande como OpenAI ou Anthropic, acho que as pessoas simplesmente deixariam passar
    • No começo suspeitavam de grandes empresas americanas como OpenAI ou Anthropic, mas na prática os agentes pessoais de IA estão cada vez mais raspando páginas da web
      Com ferramentas como Claude Cowork, o próprio usuário pode criar um crawler; eu mesmo já raspei o site da NASA e bombardeei páginas 404, sendo bloqueado temporariamente
      No fim, até usuários com “boas intenções” estão mudando os padrões de tráfego da web
      Estatísticas relacionadas podem ser vistas no Cloudflare AI Insights
    • Meu site pessoal também às vezes fica derrubado por scrapers
      Tirando o GPTBot da OpenAI, quase todos eram empresas pequenas das quais eu nunca tinha ouvido falar, e algumas até escondiam o User-Agent
      Os dados já estão no Common Crawl, então não entendo por que precisam raspar de novo
    • Provavelmente alguém mandou o Claude Code “arquivar a LWN inteira”
    • A LWN inclui vários arquivos de listas de discussão, então talvez esse seja o motivo
  • Um grande problema é que a IA revende código open source como se tivesse sido escrito por ela, driblando licenças
    Não é só código; estão raspando outros tipos de conteúdo do mesmo jeito

    • Eu trabalhei num projeto sobre jogos antigos de DOS, e o Claude praticamente raspou meu código quase inteiro e o reproduziu com outra licença
      Só mudou levemente os nomes das variáveis, mas a estrutura era igual
      Se alguém fizesse isso numa empresa, seria demitido na hora
      Mas quando a IA faz, é estranho ver alegarem legitimidade moral dizendo que é “fair use”
    • No fim, isso virou uma nova versão de lavagem de propriedade intelectual, como se fosse lavagem de dinheiro
    • Ainda assim, nunca houve decisão judicial dizendo que isso é legal; é só uma alegação da indústria de IA
  • Esse scraping pode não ser apenas coleta de dados para IA
    Sites de FOSS estão sendo atacados continuamente, e isso não fecha economicamente
    Talvez a intenção seja desorganizar a indústria de tecnologia ou a comunidade open source

    • Comunidades de modding de jogos de nicho também sofreram o mesmo ataque
      Mesmo sendo projetos sem fins lucrativos, receberam tráfego em nível de DDoS e no fim tiveram de colocar um muro de login
    • Provavelmente muitos cientistas de dados nem se importam com a frequência com que scrapers feitos por IA atingem os sites
    • Alguns fóruns que eu acompanhava também acabaram ficando inacessíveis sem login
    • Eu também administro uma pequena wiki de jogo de navegador, e inúmeros bots, incluindo Claude e OpenAI, raspam tudo agressivamente
      A maioria usava IPs residenciais, e a raiz do problema parece ser gente que acha que “tudo na internet me pertence”
    • No caso de comunidades de hobby baseadas em região, ainda bem que dá para bloquear de forma mais agressiva
  • Meu blog é chato demais, então não sofre com scraping

    • Mas graças a esse blog descobri pela primeira vez o tal do Git Brag. Achei bem interessante
    • Se você consegue deixar um LLM entediado, isso por si só já é impressionante
  • Como diz a frase “um ataque DDoS envolvendo dezenas de milhares de endereços”, o ataque é extremamente distribuído
    Até sites pequenos recebem tráfego vindo de milhares de IPs

    • Esses ataques em geral são feitos por meio de serviços de proxy residencial
      A BrightData é o exemplo clássico; é mais caro que IPs de datacenter, mas também é mais difícil de bloquear
    • O git.ardour.org também sofreu scraping inútil de git vindo de mais de 1 milhão de IPs
    • A interpretação mais benevolente é que empresas de IA não conhecem recursos alternativos como o CommonCrawl e por isso raspam diretamente;
      a pior interpretação é que são simplesmente desenvolvedores antissociais soltando bots sem pensar
    • Eu gostaria de chamar esse tipo de ataque de “Distributed Intelligence Logic Denial Of Service (DILDOS)
  • Proxy residencial deveria, na prática, ser tratado como malware
    Deveria entrar nas definições de antivírus e ser removido também das lojas de aplicativos

  • Fico me perguntando se isso é mesmo scraping para treinamento de IA
    Se não dá para distinguir de um DDoS comum, talvez não dê para ter certeza

    • Mas a LWN existe há quase 30 anos e, antes do crawling de IA, nunca tinha sofrido DDoS
  • Parece que o ataque parou agora
    A página principal também está carregando normalmente

  • Para bloquear scrapers no meu blog, eu sobrescrevo métodos de JavaScript e esvazio o conteúdo da página
    Se esconder elementos com Shadow DOM, dá para dificultar ainda mais
    Só que esse tipo de método também causa problemas para ferramentas de teste como Playwright ou Selenium e para a indexação em mecanismos de busca

    • Mas não dá para ter certeza de que isso realmente funcionou
    • Também seria divertido fazer a função gerar dados lixo para confundir os bots
  • Teve gente dizendo que “empresas de IA tentam paralisar sites concorrentes com DDoS para monopolizar os dados

    • Mas isso soa como teoria da conspiração
    • Talvez seja uma espécie de estratégia de “chutar a escada”
    • Só que a LWN já é uma newsletter antiga e quase não tem dados valiosos
      Raspar um site desses não traria nenhum ganho para IA, e parece mais paranoia excessiva