"A web quebrou" — E se meu dispositivo virar uma botnet para atacar outras pessoas? Crawling de IA e o ecossistema oculto de proxies

(jan.wildeboer.net)

8 pontos por GN⁺ 2025-04-20 | 1 comentários | Compartilhar no WhatsApp

Algumas empresas de IA estão inserindo 'SDKs de proxy P2P transformados em botnet' em apps para coletar dados, incorporando os usuários à sua infraestrutura de web crawling sem que eles saibam
Esse SDK "vende" indevidamente parte da largura de banda de rede do usuário (120~150kbps) e gera receita para desenvolvedores (18 centavos por usuário), além de realizar comportamentos anormais como crawling e brute force contra servidores de e-mail
Essa botnet usa dezenas de milhares de IPs residenciais/móveis para evitar detecção, tentando ataques apenas uma vez por dia por IP para contornar sistemas de segurança como fail2ban
Um caso representativo é o SDK da Infatica; desenvolvedores que o incluem em seus apps estão, na prática, infectando usuários com uma botnet
O mercado de "proxies residenciais" (residential proxies) está crescendo rapidamente com a demanda de crawling para IA e funciona, na prática, como infraestrutura de crawling não autorizada
Essa estrutura de botnet é uma nova forma de ataque cibernético furtivo, com desenvolvedores de apps participando desse ecossistema
O autor define o próprio web crawling como um ataque aos fundamentos da web e defende responsabilidade de desenvolvedores e empresas de plataforma, além do bloqueio de todo crawling

Botnets furtivas, sua verdadeira natureza: Botnet Parte 1

Ataques de botnet contra um servidor de e-mail pessoal

O servidor de e-mail do autor sofre continuamente ataques de brute force em SMTP
Objetivo do ataque: tomar contas para enviar spam
A maioria falha, mas as tentativas em si são persistentes e incessantes

A verdadeira natureza da botnet: infecção de dispositivos via SDK

Pagamento a desenvolvedores em troca da inserção do SDK
- Ex.: 18 centavos por usuário por mês
Esse SDK aluga parte do tráfego do usuário (120~150kbps)
É apresentado como "proxy P2P" ou "residential proxy", mas na prática usa o dispositivo do usuário como nó de botnet

Como o ataque funciona: ataque distribuído voltado a evitar detecção

Uma única tentativa de login por IP por dia → contorna detecção automática de ferramentas como fail2ban e UFW
Mas, como dispõe de dezenas de milhares de IPs, executa os ataques de forma contínua e distribuída
O autor aponta que esse método neutraliza ferramentas de segurança padrão

A ineficácia do bloqueio por ASN

Foi analisado se os IPs se concentravam em operadoras específicas (ASN)
- Resultado: menos de 4 IPs de ataque por ASN em média → bloquear o ASN inteiro não é eficaz
Atualmente, o processo é analisar logs diariamente → enviar por e-mail comandos com novos IPs para bloquear → bloquear manualmente

Forma de resposta e filosofia

Embora seja possível automatizar, o autor prefere observar e responder manualmente para entender padrões e manter a vigilância
Número de IPs de atacantes: atualmente mais de 50 mil bloqueados
A maioria é IPv4; ataques via IPv6 ainda são raros

A realidade do ecossistema de botnets

Uma estrutura de distribuição que parece legal, baseada em "incluir SDK → compartilhar receita"
Na prática, usa o tráfego do usuário sem consentimento para spam, ataques, crawling etc.
Essas botnets não são detectadas por antivírus nem por sistemas de segurança comuns

Conclusão

Quando desenvolvedores incluem esse tipo de SDK, estão, na prática, participando da criação de uma botnet
Usuários comuns não têm como saber se um app inclui esse SDK e acabam participando automaticamente da botnet
Com base nessa preocupação, o autor alerta para o colapso do ecossistema da web

"Eu não confio nem um pouco em empresas que dizem que isso é um 'SDK normal'. Isso é uma botnet."
— Jan Wildeboer, fevereiro de 2025

# A web quebrou: Botnet Parte 2

O aumento explosivo dos crawlers da web e seu contexto

Crescimento recente da demanda por coleta massiva de dados para treinar modelos de IA
Empresas de IA raspam silenciosamente todo o conteúdo da web, causando sobrecarga de tráfego
Webmasters e operadores de servidores sofrem com crawlers, mas muitas vezes nem sabem quem os está operando

Uma nova forma de botnet: infecção de usuários via SDK

Algumas empresas pagam desenvolvedores pela inserção de SDKs
Usuários comuns que instalam apps com esse SDK, sem saber, têm seu tráfego usado para crawlers de IA
Esses SDKs podem ser inseridos em apps para iOS, Android, MacOS e Windows

Caso representativo: Infatica

Site: https://infatica.io
Na página voltada a desenvolvedores, a empresa divulga que é possível fazer crawling pela rede dos usuários
Alega oferecer milhões de IPs rotativos (residenciais/móveis)

Por que isso é um problema?

Empresas como a Infatica afirmam monitorar quais comandos seus clientes executam (como empresas de IA com objetivo de crawling), mas na prática isso funciona como estrutura de fuga de responsabilidade
Um relatório da Trend Micro de 2023 também confirmou casos semelhantes
Em alguns casos, o SDK é embutido secretamente em software gratuito e distribuído sem consentimento do usuário

Danos: tanto para usuários individuais quanto para pequenos servidores

Desenvolvedores de apps: seduzidos por dinheiro para incluir o SDK → tornam-se, na prática, distribuidores de malware
Usuários: seus dispositivos e redes são usados em web crawling e DDoS
Operadores de servidores: tornam-se, sem saber, alvos de volume excessivo de requisições
- Ex.: a instância Forgejo do autor também foi tornada privada por causa do excesso de tráfego de bots

A embalagem de "proxy residencial"

Proxies que usam dispositivos de usuários como base são chamados de "residential IP"
Exemplo de site de reviews de serviços de proxy:
https://proxyway.com/reviews
Na superfície, parecem uma infraestrutura legítima, mas na prática envolvem propagação não autorizada e transformação em proxy

Conclusão: web crawling agora está em nível de abuso

O autor defende que todas as formas de web crawling devem ser tratadas como comportamento malicioso
Na visão dele, crawlers da web estão atacando os alicerces da web
A IA é o principal motor dessa estrutura, e ele rejeita fortemente a alegação de que isso seja "legal"

Propostas e senso de urgência

Desenvolvedores que incluem esses SDKs devem ser responsabilizados
Empresas de plataforma como Apple, Google e Microsoft devem coibir esse mercado
É quase impossível para usuários comuns identificar ou bloquear isso
Operadores da web tentam bloquear crawlers tecnicamente, mas há limites

“Graças à IA, a web está se tornando um espaço em que já não se pode confiar. Obrigado, IA.”
– Jan Wildeboer, abril de 2025

1 comentários

GN⁺ 2025-04-20

Comentários do Hacker News

Desenvolvedores de aplicativos incluírem SDKs de terceiros por lucro é parte do problema, e acho que devem ser responsabilizados por distribuir software malicioso aos usuários
- Suspeito que muitos SDKs tenham esse tipo de problema
- Pessoalmente, prefiro evitar o vício em dependências e desenvolver por conta própria
- Agentes maliciosos exploram o vício em dependências dos desenvolvedores modernos para armar armadilhas
Existe um mercado em iOS, Android, MacOS e Windows para fazer desenvolvedores incluírem bibliotecas que vendem a largura de banda da rede dos usuários
- Isso está relacionado ao motivo de Cloudflare e Google exigirem CAPTCHA
- Não dá para entender por que o Play Protect, o MS Defender e o antivírus da Apple não detectam esse tipo de malware
- Uma biblioteca SDK que transforma o dispositivo do usuário em parte de uma botnet é um exemplo claro de cavalo de Troia
O problema da web é que, para os dados continuarem legíveis, algum administrador de sistemas específico precisa manter o servidor no ar
- Com um modelo de endereçamento por conteúdo, seria possível eliminar a restrição de unicidade
- Scrapers de IA poderiam compartilhar dados entre si sem sobrecarregar a fonte original
Software de compartilhamento de rede deveria ser classificado como aplicativo potencialmente indesejado
- Ele vem junto com algo que o usuário queria instalar e abusa dos recursos do sistema
- Gostaria de usar o Wireshark para verificar atividades suspeitas
- Precisamos de um repositório público de apps que fazem isso
Apps que incluem malware deveriam ser colocados em quarentena imediatamente
- Mesmo que não causem dano direto, continuam sendo malware
Web scraping deveria ser considerado abuso, e os servidores web deveriam bloqueá-lo
- Plataformas como o YouTube provavelmente concordariam com isso
Fico me perguntando se alguém já compilou uma lista de softwares que usam essas bibliotecas
- Seria bom saber quais apps evitar
Proxies residenciais têm a fraqueza de que os endereços IP mudam com frequência
- IPs vindos do mesmo provedor de proxy podem ser detectados com facilidade
- Estou desenvolvendo uma plataforma open source antifraude, e detectar usuários falsos vindos de proxies residenciais é um dos casos de uso
Até agora não há evidência clara, mas esse comportamento pode ser detectado com facilidade
- O iOS tem recursos para verificar as conexões de um app
- O Android não tem esse recurso, mas é possível usar firewalls de terceiros como o pcapdroid
- No MacOS, é possível usar o Little Snitch; no Windows, o Fort Firewall
- Não são muitas as pessoas que usam esse tipo de app, mas elas provavelmente denunciariam aplicativos que usam seus dispositivos como botnet
Fico me perguntando se existe uma lista de servidores de c&c que possa ser adicionada ao Pihole e afins

"A web quebrou" — E se meu dispositivo virar uma botnet para atacar outras pessoas? Crawling de IA e o ecossistema oculto de proxies

Botnets furtivas, sua verdadeira natureza: Botnet Parte 1

Ataques de botnet contra um servidor de e-mail pessoal

A verdadeira natureza da botnet: infecção de dispositivos via SDK

Como o ataque funciona: ataque distribuído voltado a evitar detecção

A ineficácia do bloqueio por ASN

Forma de resposta e filosofia

A realidade do ecossistema de botnets

Conclusão

# A web quebrou: Botnet Parte 2

O aumento explosivo dos crawlers da web e seu contexto

Uma nova forma de botnet: infecção de usuários via SDK

Caso representativo: Infatica

Por que isso é um problema?

Danos: tanto para usuários individuais quanto para pequenos servidores

A embalagem de "proxy residencial"

Conclusão: web crawling agora está em nível de abuso

Propostas e senso de urgência

Leituras relacionadas

1 comentários

Comentários do Hacker News