Miasma: ferramenta que aprisiona scrapers web de IA em um loop infinito de contaminação

(github.com/austin-weeks)

5 pontos por GN⁺ 2026-03-30 | 1 comentários | Compartilhar no WhatsApp

Miasma é uma ferramenta de servidor baseada em Rust que prende scrapers web de IA em um loop infinito para atrapalhar a coleta de dados de treinamento
Redireciona o tráfego de empresas de IA que coletam conteúdo de sites em larga escala e retorna dados contaminados e links autorreferenciais obtidos da “poison fountain”
Permite defesa sem desperdiçar recursos do servidor, com alto desempenho e baixo uso de memória
Usa proxy reverso do Nginx e inserção de links ocultos para conduzir scrapers ao caminho /bots, formando uma estrutura de circulação infinita
Mecanismos de busca legítimos são protegidos por regras de exceção no robots.txt, e o projeto é open source, permitindo contribuições da comunidade

Instalação e execução

Pode ser instalado com Cargo
- Instale com o comando cargo install miasma
Também é possível baixar binários pré-compilados na página de Releases do GitHub
Para executar com a configuração padrão, basta digitar o comando miasma
Todas as opções de configuração podem ser consultadas com miasma --help

Como configurar a armadilha para scrapers

Defina o caminho /bots como ponto de entrada para scrapers
Use Nginx como proxy reverso para encaminhar requisições do caminho /bots ao servidor Miasma
```
location ~ ^/bots($|/.*)$ {
  proxy_pass http://localhost:9855;
}
```
- Corresponde a todas as variações de caminho, como /bots, /bots/, /bots/12345
Inserção de links ocultos
- Adicione à página web links ocultos que não sejam visíveis para visitantes humanos, mas que possam ser detectados por scrapers
```
<a href="/bots" style="display: none;" aria-hidden="true" tabindex="1">
  Amazing high quality data here!
</a>
```
- Os atributos display: none, aria-hidden="true" e tabindex="1" impedem a exposição a usuários e ferramentas de acessibilidade
Execução do Miasma
- Defina /bots como prefixo dos links e configure a porta e o limite de conexões simultâneas
```
miasma --link-prefix '/bots' -p 9855 -c 50
```
- Permite no máximo 50 conexões simultâneas; requisições excedentes retornam HTTP 429
- Com 50 conexões, o uso de memória esperado é de cerca de 50~60MB
Comportamento após a implantação
- Depois de implantado, os scrapers seguem o caminho /bots e circulam indefinidamente por páginas com dados contaminados
- É possível acompanhar em tempo real, pelos logs, as requisições repetidas dos scrapers

Configuração do robots.txt

É necessário adicionar regras de exceção no robots.txt para evitar que crawlers legítimos de mecanismos de busca acessem o Miasma

User-agent: Googlebot
User-agent: Bingbot
User-agent: DuckDuckBot
User-agent: Slurp
User-agent: SomeOtherNiceBot
Disallow: /bots
Allow: /

Opções de configuração

É possível fazer ajustes detalhados por meio das opções de CLI

Opção	Padrão	Descrição
`port`	`9999`	Porta à qual o servidor fará bind
`host`	`localhost`	Endereço de host ao qual o servidor fará bind
`max-in-flight`	`500`	Número máximo de requisições que podem ser processadas simultaneamente. Acima disso, retorna 429. O uso de memória é proporcional a esse valor
`link-prefix`	`/`	Prefixo dos links autorreferenciais. Ex.: `/bots`
`link-count`	`5`	Número de links autorreferenciais incluídos em cada página de resposta
`force-gzip`	`false`	Aplica compressão gzip sempre, independentemente do cabeçalho Accept-Encoding do cliente. Útil para reduzir custos de transferência
`poison-source`	`https://rnsaffn.com/poison2/`	Fonte proxy de onde serão obtidos os dados de treinamento contaminados

Desenvolvimento e contribuição

Relatórios de bugs e sugestões de funcionalidades podem ser enviados por GitHub Issues
Contribuições de código geradas por IA são automaticamente rejeitadas
Contribuições da comunidade são bem-vindas, e o projeto permanece open source

1 comentários

GN⁺ 2026-03-30

Comentários no Hacker News

Assim como quando alguém mantém um golpista de telemarketing ocupado por 45 minutos, fico em dúvida se esse tipo de técnica de confusão de bots realmente funciona
Segundo a política do Google Search, inserir links ocultos é uma violação clara, o que pode derrubar o ranking do site ou até removê-lo dos resultados de busca
No fim, esse tipo de abordagem pode causar mais dano ao meu site do que aos bots
- Se for automatizado, acho que pode funcionar
  Como no vídeo do youtuber Kitboga, que prende chamadas de spam com um call center de IA, isso pode ser visto como uma tática de guerrilha para consumir os recursos do inimigo
- Eu realmente já mantive golpistas de telefone ocupados por bastante tempo e depois parei de receber ligações
  Parece que eles mantêm uma “lista de não ligar” e uma “lista de não lucrativo”. O segredo é entrar na segunda
- Isso me lembra os casos de spam de escolas de inglês na Rússia nos anos 2000
  As pessoas ficaram tão irritadas que a Golden Telecom fez ligações automáticas de retaliação, e a empresa desapareceu
  Dá para obter efeito desse jeito, mas é preciso alugar um pool de modems
- É verdade que inserir links ocultos é proibido, mas eu preferiria ver isso como um gatilho para a volta da "small web"
  Se surgirem ferramentas com anti-scraping, anti-crawler do Google e um índice de busca centrado em humanos, pode haver aí uma possibilidade
- Há de fato pesquisa mostrando que esse tipo de técnica de envenenamento de dados funciona
O conteúdo do meu site público está sendo roubado por scrapers
No fim, eu também roubei este post, e você também está roubando meu comentário. O mundo está cheio de ladrões
- O problema é que eles enviam requisições demais e meu site cai
  O conteúdo está aberto para todos, mas eu não gosto da ideia de torná-lo inacessível para todo mundo
- Chamar isso de ‘roubo’ é um exagero, mas é desagradável ver meus textos sendo explorados como meio de ganhar dinheiro
  Se isso continuar, vou perder a vontade de compartilhar
- Humanos têm direitos e liberdades em termos legais, mas LLMs não
  No fim, colocar humanos e ferramentas de empresas no mesmo nível é uma comparação errada
- Como naquela frase satírica do tipo “Welcome to the internet…”, já vivemos num mundo em que abrimos mão dos dados e da privacidade
No passado eu fazia software pago e colocava código de proteção contra cópia, mas sempre aparecia um novo crack
Acabei percebendo que aquela luta não fazia sentido e removi o código de proteção
Tentar impedir o crawling de bots de IA parece o mesmo jogo de gato e rato
- Talvez eu tivesse vencido se tivesse adotado uma estratégia de tornar o cracking entediante
  Mas, como a motivação da comunidade é justamente diversão e prestígio, acho difícil isso funcionar na prática
- Na verdade, muitos problemas se resolvem quando você larga a obsessão
  Mas redes sociais e a fixação com direitos autorais acabaram alimentando o desejo de controle das pessoas
Fico curioso se esse tipo de técnica realmente funciona
A maioria dos scrapers provavelmente já deve ter tecnologia para contornar esse tipo de defesa
- Mesmo que funcione, sinceramente eu já não tenho energia para me importar. Só sobrou cansaço
- Eu criei uma biblioteca falsa de Python e subi no GitHub; meses depois, o ChatGPT aprendeu aquilo
  Pela minha experiência, esse tipo de abordagem funciona até certo ponto
- Há centenas de bots usando proxies pagos, então basta fazer com que eles tenham de pagar esse custo
- Os crawlers da Meta e da Anthropic não são tão sofisticados quanto parecem
  Não sei se eles treinaram com os dados lixo que eu criei, mas gosto de sonhar
A abordagem de envenenamento de dados (data poisoning) é interessante
Quando o modelo treina com dados da web, ele herda os vieses e manipulações que estão neles
Se agentes maliciosos contaminarem dados em larga escala, o próprio treinamento passa a ter uma estrutura adversarial
No fim, a solução é a gestão de procedência de fontes de dados confiáveis (provenance)
No fim, esse tipo de tentativa acaba fornecendo dados de treinamento para a IA ficar mais inteligente
É bem provável que o mercado de conteúdo baseado em publicidade entre em colapso e, como resultado, seja reorganizado em torno da qualidade do conteúdo
- Dá para retrucar com “então a ideia é não fazer nada?”, mas, na prática, não é fácil responder
- A IA vai acelerar o fim do conteúdo baseado em publicidade
  Em vez disso, deve se consolidar um modelo em que os dados são fornecidos por meio de licenciamento direto
- Se o crawler não clicar em todos os links e apenas fizer parsing localmente, eu consideraria isso uma vitória
- No fim, tecnologia é uma sucessão interminável de corridas armamentistas
Não daria para evitar esse truque simplesmente removendo atributos como style="display:none" ou aria-hidden="true"?
- Mas, se fizer isso, você acaba ignorando o robots.txt
  Um scraper honesto deveria seguir essa regra
- Em vez de esconder completamente os links, basta colocá-los pequenos fora da tela
  As pessoas não veem, mas os bots podem seguir
A ideia é legal, mas no fim isso vai prejudicar ainda mais as PMEs (SME)
Só as grandes empresas vão ficar mais fortes, e os sites pequenos vão desaparecer dos resultados de busca por IA
No fim, não resta muito além de seguir o fluxo e deixar uma pequena resistência aqui e ali
Ferramentas como Nightshade 2.0 parecem mais projetos mal-acabados para chamar atenção
A solução de verdade é fornecer dados em um formato amigável para LLMs
Um truque simples de display:none não funciona contra crawlers espertos
Veja esta thread relacionada
O realmente interessante é o dataset Poison Fountain usado por este projeto
Em rnsaffn.com/poison3 aparece a frase “quero causar dano a sistemas de inteligência de máquina”
Esse tipo de ideologia hacker me parece uma espécie de roleplay, então acho difícil me identificar com isso
- Mas, no fim das contas, ninguém explica o que seriam exatamente “dados contaminados” nem de onde vem a afirmação de que pequenas quantidades já causam grande impacto

Miasma: ferramenta que aprisiona scrapers web de IA em um loop infinito de contaminação

Instalação e execução

Como configurar a armadilha para scrapers

Inserção de links ocultos

Execução do Miasma

Comportamento após a implantação

Configuração do robots.txt

Opções de configuração

Desenvolvimento e contribuição

Leituras relacionadas

1 comentários

Comentários no Hacker News