8 pontos por GN⁺ 2025-04-20 | 1 comentários | Compartilhar no WhatsApp
  • Algumas empresas de IA estão inserindo 'SDKs de proxy P2P transformados em botnet' em apps para coletar dados, incorporando os usuários à sua infraestrutura de web crawling sem que eles saibam
  • Esse SDK "vende" indevidamente parte da largura de banda de rede do usuário (120~150kbps) e gera receita para desenvolvedores (18 centavos por usuário), além de realizar comportamentos anormais como crawling e brute force contra servidores de e-mail
  • Essa botnet usa dezenas de milhares de IPs residenciais/móveis para evitar detecção, tentando ataques apenas uma vez por dia por IP para contornar sistemas de segurança como fail2ban
  • Um caso representativo é o SDK da Infatica; desenvolvedores que o incluem em seus apps estão, na prática, infectando usuários com uma botnet
  • O mercado de "proxies residenciais" (residential proxies) está crescendo rapidamente com a demanda de crawling para IA e funciona, na prática, como infraestrutura de crawling não autorizada
  • Essa estrutura de botnet é uma nova forma de ataque cibernético furtivo, com desenvolvedores de apps participando desse ecossistema
  • O autor define o próprio web crawling como um ataque aos fundamentos da web e defende responsabilidade de desenvolvedores e empresas de plataforma, além do bloqueio de todo crawling

Botnets furtivas, sua verdadeira natureza: Botnet Parte 1

Ataques de botnet contra um servidor de e-mail pessoal

  • O servidor de e-mail do autor sofre continuamente ataques de brute force em SMTP
  • Objetivo do ataque: tomar contas para enviar spam
  • A maioria falha, mas as tentativas em si são persistentes e incessantes

A verdadeira natureza da botnet: infecção de dispositivos via SDK

  • Pagamento a desenvolvedores em troca da inserção do SDK
    • Ex.: 18 centavos por usuário por mês
  • Esse SDK aluga parte do tráfego do usuário (120~150kbps)
  • É apresentado como "proxy P2P" ou "residential proxy", mas na prática usa o dispositivo do usuário como nó de botnet

Como o ataque funciona: ataque distribuído voltado a evitar detecção

  • Uma única tentativa de login por IP por dia → contorna detecção automática de ferramentas como fail2ban e UFW
  • Mas, como dispõe de dezenas de milhares de IPs, executa os ataques de forma contínua e distribuída
  • O autor aponta que esse método neutraliza ferramentas de segurança padrão

A ineficácia do bloqueio por ASN

  • Foi analisado se os IPs se concentravam em operadoras específicas (ASN)
    • Resultado: menos de 4 IPs de ataque por ASN em média → bloquear o ASN inteiro não é eficaz
  • Atualmente, o processo é analisar logs diariamente → enviar por e-mail comandos com novos IPs para bloquear → bloquear manualmente

Forma de resposta e filosofia

  • Embora seja possível automatizar, o autor prefere observar e responder manualmente para entender padrões e manter a vigilância
  • Número de IPs de atacantes: atualmente mais de 50 mil bloqueados
  • A maioria é IPv4; ataques via IPv6 ainda são raros

A realidade do ecossistema de botnets

  • Uma estrutura de distribuição que parece legal, baseada em "incluir SDK → compartilhar receita"
  • Na prática, usa o tráfego do usuário sem consentimento para spam, ataques, crawling etc.
  • Essas botnets não são detectadas por antivírus nem por sistemas de segurança comuns

Conclusão

  • Quando desenvolvedores incluem esse tipo de SDK, estão, na prática, participando da criação de uma botnet
  • Usuários comuns não têm como saber se um app inclui esse SDK e acabam participando automaticamente da botnet
  • Com base nessa preocupação, o autor alerta para o colapso do ecossistema da web

"Eu não confio nem um pouco em empresas que dizem que isso é um 'SDK normal'. Isso é uma botnet."
— Jan Wildeboer, fevereiro de 2025


# A web quebrou: Botnet Parte 2

O aumento explosivo dos crawlers da web e seu contexto

  • Crescimento recente da demanda por coleta massiva de dados para treinar modelos de IA
  • Empresas de IA raspam silenciosamente todo o conteúdo da web, causando sobrecarga de tráfego
  • Webmasters e operadores de servidores sofrem com crawlers, mas muitas vezes nem sabem quem os está operando

Uma nova forma de botnet: infecção de usuários via SDK

  • Algumas empresas pagam desenvolvedores pela inserção de SDKs
  • Usuários comuns que instalam apps com esse SDK, sem saber, têm seu tráfego usado para crawlers de IA
  • Esses SDKs podem ser inseridos em apps para iOS, Android, MacOS e Windows

Caso representativo: Infatica

  • Site: https://infatica.io
  • Na página voltada a desenvolvedores, a empresa divulga que é possível fazer crawling pela rede dos usuários
  • Alega oferecer milhões de IPs rotativos (residenciais/móveis)

Por que isso é um problema?

  • Empresas como a Infatica afirmam monitorar quais comandos seus clientes executam (como empresas de IA com objetivo de crawling), mas na prática isso funciona como estrutura de fuga de responsabilidade
  • Um relatório da Trend Micro de 2023 também confirmou casos semelhantes
  • Em alguns casos, o SDK é embutido secretamente em software gratuito e distribuído sem consentimento do usuário

Danos: tanto para usuários individuais quanto para pequenos servidores

  • Desenvolvedores de apps: seduzidos por dinheiro para incluir o SDK → tornam-se, na prática, distribuidores de malware
  • Usuários: seus dispositivos e redes são usados em web crawling e DDoS
  • Operadores de servidores: tornam-se, sem saber, alvos de volume excessivo de requisições
    • Ex.: a instância Forgejo do autor também foi tornada privada por causa do excesso de tráfego de bots

A embalagem de "proxy residencial"

  • Proxies que usam dispositivos de usuários como base são chamados de "residential IP"
  • Exemplo de site de reviews de serviços de proxy:
    https://proxyway.com/reviews
  • Na superfície, parecem uma infraestrutura legítima, mas na prática envolvem propagação não autorizada e transformação em proxy

Conclusão: web crawling agora está em nível de abuso

  • O autor defende que todas as formas de web crawling devem ser tratadas como comportamento malicioso
  • Na visão dele, crawlers da web estão atacando os alicerces da web
  • A IA é o principal motor dessa estrutura, e ele rejeita fortemente a alegação de que isso seja "legal"

Propostas e senso de urgência

  • Desenvolvedores que incluem esses SDKs devem ser responsabilizados
  • Empresas de plataforma como Apple, Google e Microsoft devem coibir esse mercado
  • É quase impossível para usuários comuns identificar ou bloquear isso
  • Operadores da web tentam bloquear crawlers tecnicamente, mas há limites

“Graças à IA, a web está se tornando um espaço em que já não se pode confiar. Obrigado, IA.”
– Jan Wildeboer, abril de 2025

1 comentários

 
GN⁺ 2025-04-20
Comentários do Hacker News
  • Desenvolvedores de aplicativos incluírem SDKs de terceiros por lucro é parte do problema, e acho que devem ser responsabilizados por distribuir software malicioso aos usuários

    • Suspeito que muitos SDKs tenham esse tipo de problema
    • Pessoalmente, prefiro evitar o vício em dependências e desenvolver por conta própria
    • Agentes maliciosos exploram o vício em dependências dos desenvolvedores modernos para armar armadilhas
  • Existe um mercado em iOS, Android, MacOS e Windows para fazer desenvolvedores incluírem bibliotecas que vendem a largura de banda da rede dos usuários

    • Isso está relacionado ao motivo de Cloudflare e Google exigirem CAPTCHA
    • Não dá para entender por que o Play Protect, o MS Defender e o antivírus da Apple não detectam esse tipo de malware
    • Uma biblioteca SDK que transforma o dispositivo do usuário em parte de uma botnet é um exemplo claro de cavalo de Troia
  • O problema da web é que, para os dados continuarem legíveis, algum administrador de sistemas específico precisa manter o servidor no ar

    • Com um modelo de endereçamento por conteúdo, seria possível eliminar a restrição de unicidade
    • Scrapers de IA poderiam compartilhar dados entre si sem sobrecarregar a fonte original
  • Software de compartilhamento de rede deveria ser classificado como aplicativo potencialmente indesejado

    • Ele vem junto com algo que o usuário queria instalar e abusa dos recursos do sistema
    • Gostaria de usar o Wireshark para verificar atividades suspeitas
    • Precisamos de um repositório público de apps que fazem isso
  • Apps que incluem malware deveriam ser colocados em quarentena imediatamente

    • Mesmo que não causem dano direto, continuam sendo malware
  • Web scraping deveria ser considerado abuso, e os servidores web deveriam bloqueá-lo

    • Plataformas como o YouTube provavelmente concordariam com isso
  • Fico me perguntando se alguém já compilou uma lista de softwares que usam essas bibliotecas

    • Seria bom saber quais apps evitar
  • Proxies residenciais têm a fraqueza de que os endereços IP mudam com frequência

    • IPs vindos do mesmo provedor de proxy podem ser detectados com facilidade
    • Estou desenvolvendo uma plataforma open source antifraude, e detectar usuários falsos vindos de proxies residenciais é um dos casos de uso
  • Até agora não há evidência clara, mas esse comportamento pode ser detectado com facilidade

    • O iOS tem recursos para verificar as conexões de um app
    • O Android não tem esse recurso, mas é possível usar firewalls de terceiros como o pcapdroid
    • No MacOS, é possível usar o Little Snitch; no Windows, o Fort Firewall
    • Não são muitas as pessoas que usam esse tipo de app, mas elas provavelmente denunciariam aplicativos que usam seus dispositivos como botnet
  • Fico me perguntando se existe uma lista de servidores de c&c que possa ser adicionada ao Pihole e afins