"A web quebrou" — E se meu dispositivo virar uma botnet para atacar outras pessoas? Crawling de IA e o ecossistema oculto de proxies
(jan.wildeboer.net)- Algumas empresas de IA estão inserindo 'SDKs de proxy P2P transformados em botnet' em apps para coletar dados, incorporando os usuários à sua infraestrutura de web crawling sem que eles saibam
- Esse SDK "vende" indevidamente parte da largura de banda de rede do usuário (120~150kbps) e gera receita para desenvolvedores (18 centavos por usuário), além de realizar comportamentos anormais como crawling e brute force contra servidores de e-mail
- Essa botnet usa dezenas de milhares de IPs residenciais/móveis para evitar detecção, tentando ataques apenas uma vez por dia por IP para contornar sistemas de segurança como fail2ban
- Um caso representativo é o SDK da Infatica; desenvolvedores que o incluem em seus apps estão, na prática, infectando usuários com uma botnet
- O mercado de "proxies residenciais" (residential proxies) está crescendo rapidamente com a demanda de crawling para IA e funciona, na prática, como infraestrutura de crawling não autorizada
- Essa estrutura de botnet é uma nova forma de ataque cibernético furtivo, com desenvolvedores de apps participando desse ecossistema
- O autor define o próprio web crawling como um ataque aos fundamentos da web e defende responsabilidade de desenvolvedores e empresas de plataforma, além do bloqueio de todo crawling
Botnets furtivas, sua verdadeira natureza: Botnet Parte 1
Ataques de botnet contra um servidor de e-mail pessoal
- O servidor de e-mail do autor sofre continuamente ataques de brute force em SMTP
- Objetivo do ataque: tomar contas para enviar spam
- A maioria falha, mas as tentativas em si são persistentes e incessantes
A verdadeira natureza da botnet: infecção de dispositivos via SDK
- Pagamento a desenvolvedores em troca da inserção do SDK
- Ex.: 18 centavos por usuário por mês
- Esse SDK aluga parte do tráfego do usuário (120~150kbps)
- É apresentado como "proxy P2P" ou "residential proxy", mas na prática usa o dispositivo do usuário como nó de botnet
Como o ataque funciona: ataque distribuído voltado a evitar detecção
- Uma única tentativa de login por IP por dia → contorna detecção automática de ferramentas como fail2ban e UFW
- Mas, como dispõe de dezenas de milhares de IPs, executa os ataques de forma contínua e distribuída
- O autor aponta que esse método neutraliza ferramentas de segurança padrão
A ineficácia do bloqueio por ASN
- Foi analisado se os IPs se concentravam em operadoras específicas (ASN)
- Resultado: menos de 4 IPs de ataque por ASN em média → bloquear o ASN inteiro não é eficaz
- Atualmente, o processo é analisar logs diariamente → enviar por e-mail comandos com novos IPs para bloquear → bloquear manualmente
Forma de resposta e filosofia
- Embora seja possível automatizar, o autor prefere observar e responder manualmente para entender padrões e manter a vigilância
- Número de IPs de atacantes: atualmente mais de 50 mil bloqueados
- A maioria é IPv4; ataques via IPv6 ainda são raros
A realidade do ecossistema de botnets
- Uma estrutura de distribuição que parece legal, baseada em "incluir SDK → compartilhar receita"
- Na prática, usa o tráfego do usuário sem consentimento para spam, ataques, crawling etc.
- Essas botnets não são detectadas por antivírus nem por sistemas de segurança comuns
Conclusão
- Quando desenvolvedores incluem esse tipo de SDK, estão, na prática, participando da criação de uma botnet
- Usuários comuns não têm como saber se um app inclui esse SDK e acabam participando automaticamente da botnet
- Com base nessa preocupação, o autor alerta para o colapso do ecossistema da web
"Eu não confio nem um pouco em empresas que dizem que isso é um 'SDK normal'. Isso é uma botnet."
— Jan Wildeboer, fevereiro de 2025
# A web quebrou: Botnet Parte 2
O aumento explosivo dos crawlers da web e seu contexto
- Crescimento recente da demanda por coleta massiva de dados para treinar modelos de IA
- Empresas de IA raspam silenciosamente todo o conteúdo da web, causando sobrecarga de tráfego
- Webmasters e operadores de servidores sofrem com crawlers, mas muitas vezes nem sabem quem os está operando
Uma nova forma de botnet: infecção de usuários via SDK
- Algumas empresas pagam desenvolvedores pela inserção de SDKs
- Usuários comuns que instalam apps com esse SDK, sem saber, têm seu tráfego usado para crawlers de IA
- Esses SDKs podem ser inseridos em apps para iOS, Android, MacOS e Windows
Caso representativo: Infatica
- Site: https://infatica.io
- Na página voltada a desenvolvedores, a empresa divulga que é possível fazer crawling pela rede dos usuários
- Alega oferecer milhões de IPs rotativos (residenciais/móveis)
Por que isso é um problema?
- Empresas como a Infatica afirmam monitorar quais comandos seus clientes executam (como empresas de IA com objetivo de crawling), mas na prática isso funciona como estrutura de fuga de responsabilidade
- Um relatório da Trend Micro de 2023 também confirmou casos semelhantes
- Em alguns casos, o SDK é embutido secretamente em software gratuito e distribuído sem consentimento do usuário
Danos: tanto para usuários individuais quanto para pequenos servidores
- Desenvolvedores de apps: seduzidos por dinheiro para incluir o SDK → tornam-se, na prática, distribuidores de malware
- Usuários: seus dispositivos e redes são usados em web crawling e DDoS
- Operadores de servidores: tornam-se, sem saber, alvos de volume excessivo de requisições
- Ex.: a instância
Forgejodo autor também foi tornada privada por causa do excesso de tráfego de bots
- Ex.: a instância
A embalagem de "proxy residencial"
- Proxies que usam dispositivos de usuários como base são chamados de "residential IP"
- Exemplo de site de reviews de serviços de proxy:
https://proxyway.com/reviews - Na superfície, parecem uma infraestrutura legítima, mas na prática envolvem propagação não autorizada e transformação em proxy
Conclusão: web crawling agora está em nível de abuso
- O autor defende que todas as formas de web crawling devem ser tratadas como comportamento malicioso
- Na visão dele, crawlers da web estão atacando os alicerces da web
- A IA é o principal motor dessa estrutura, e ele rejeita fortemente a alegação de que isso seja "legal"
Propostas e senso de urgência
- Desenvolvedores que incluem esses SDKs devem ser responsabilizados
- Empresas de plataforma como Apple, Google e Microsoft devem coibir esse mercado
- É quase impossível para usuários comuns identificar ou bloquear isso
- Operadores da web tentam bloquear crawlers tecnicamente, mas há limites
“Graças à IA, a web está se tornando um espaço em que já não se pode confiar. Obrigado, IA.”
– Jan Wildeboer, abril de 2025
1 comentários
Comentários do Hacker News
Desenvolvedores de aplicativos incluírem SDKs de terceiros por lucro é parte do problema, e acho que devem ser responsabilizados por distribuir software malicioso aos usuários
Existe um mercado em iOS, Android, MacOS e Windows para fazer desenvolvedores incluírem bibliotecas que vendem a largura de banda da rede dos usuários
O problema da web é que, para os dados continuarem legíveis, algum administrador de sistemas específico precisa manter o servidor no ar
Software de compartilhamento de rede deveria ser classificado como aplicativo potencialmente indesejado
Apps que incluem malware deveriam ser colocados em quarentena imediatamente
Web scraping deveria ser considerado abuso, e os servidores web deveriam bloqueá-lo
Fico me perguntando se alguém já compilou uma lista de softwares que usam essas bibliotecas
Proxies residenciais têm a fraqueza de que os endereços IP mudam com frequência
Até agora não há evidência clara, mas esse comportamento pode ser detectado com facilidade
Fico me perguntando se existe uma lista de servidores de c&c que possa ser adicionada ao Pihole e afins