Nepenthes - A armadilha que captura crawlers web de IA

(zadzmo.org)

5 pontos por GN⁺ 2025-01-17 | 1 comentários | Compartilhar no WhatsApp

Software para capturar crawlers web, especialmente os voltados a raspar dados para grandes modelos de linguagem (LLMs).
- Gera uma sequência infinita de páginas para fazer com que o crawler não consiga sair.
- Adiciona atrasos intencionais para que o crawler não sobrecarregue o servidor e pode usar Markov-babble para induzir o crawler a coletar dados.
- Este software foi projetado com fins maliciosos, e é preciso cautela ao usá-lo.
Aviso
- Crawlers de LLM são extremamente persistentes, e usar este software fará com que eles continuem recebendo os dados que desejam.
- Não há como distinguir crawlers para mecanismos de busca de crawlers que treinam modelos de IA, e usar este software torna muito provável que o site desapareça dos resultados de busca.
Como usar
- Recomenda-se esconder o tarpit atrás de Nginx ou Apache.
- O tarpit é configurado usando headers HTTP, e é fornecido um exemplo de snippet de configuração do nginx.
Instalação
- Pode ser instalado com Docker ou manualmente.
- Requer Lua, SQLite, OpenSSL e vários módulos Lua.
- Depois da instalação, é possível começar ajustando o arquivo config.yml.
Bootstrap do Markov Babbler
- A funcionalidade de Markov requer um corpus treinado e pode ser treinada usando várias fontes de texto.
- Os dados de treinamento podem ser adicionados enviando-os para um endpoint POST.
Estatísticas
- Fornece vários endpoints de estatísticas em formato JSON, permitindo verificar endereços IP e strings de user-agent.
Uso defensivo do Nepenthes
- Impede que crawlers acessem o conteúdo real por meio de links do site para a localização do Nepenthes.
- A lista de endereços IP coletados pode ser usada para bloquear crawlers.
Uso ofensivo do Nepenthes
- Em vez de bloquear os crawlers, é possível fornecer o máximo de dados possível para atrapalhar modelos de IA.
Arquivo de configuração
- São explicadas todas as diretivas possíveis do arquivo config.yaml.
- É possível ajustar o comportamento do Nepenthes por meio de várias configurações.

1 comentários

GN⁺ 2025-01-17

Comentários do Hacker News

Há comentários sobre como testar a vulnerabilidade de DDOS reflexivo do crawler do ChatGPT. Essa vulnerabilidade pode fazer com que uma única requisição HTTP provoque 5000 requisições HTTP
- OpenAI e Microsoft ignoraram essa vulnerabilidade, e o processo de reporte foi muito difícil
- Recomenda-se não explorar essa vulnerabilidade por razões legais
Alguém compartilha a experiência de ter operado um motel para bots no passado, mencionando casos em que crawlers ficaram presos por dias
- Segurança muitas vezes é uma preocupação posterior, e a luta contra crawlers é uma corrida sem fim
Alguém compartilha a experiência de um site sem fins lucrativos que foi temporariamente tirado do ar devido ao rastreamento agressivo de bots da Amazon
- A Siteground restaurou o site, e depois disso o bot da Amazon foi adicionado ao robots.txt
- A pessoa expressa insatisfação com a situação atual e questiona se tarpit ou leis poderiam ser uma solução
Há a opinião de que um tarpit pode desacelerar o crawling, mas não terá grande efeito a menos que muitos sites o utilizem
- É difícil identificar bots maliciosos, e existe o risco de ser excluído dos resultados de busca
Há a opinião de que um gerador de texto aleatório baseado em cadeia de Markov não seria um grande problema para crawlers de treinamento de LLM
- Em vez de poluição aleatória, usar texto repetitivo e sem sentido pode ser mais eficaz
Há um comentário dizendo que atualmente está ocorrendo um erro 502 Bad Gateway, e que não dá para saber se o site foi classificado como crawler web de IA ou se está apenas sobrecarregado
Há a opinião de que, a menos que esse conceito se popularize, será fácil filtrá-lo
- Grandes empresas podem montar equipes para bloquear esse tipo de software
Já existem sites "infinitos" na internet, e crawlers definem quantas páginas vão rastrear por domínio
- Sites populares recebem muito rastreamento, enquanto sites desconhecidos recebem pouco
Como abordagem simples, alguém está considerando enviar 100 requisições HTTP inválidas para cada requisição HTTP inválida recebida
Há a opinião de que sites que aplicarem esse software provavelmente desaparecerão de todos os resultados de busca
- Isso pode ser um bug, ou pode ser uma funcionalidade

Nepenthes - A armadilha que captura crawlers web de IA

Leituras relacionadas

1 comentários

Comentários do Hacker News