- Software para capturar crawlers web, especialmente os voltados a raspar dados para grandes modelos de linguagem (LLMs).
- Gera uma sequência infinita de páginas para fazer com que o crawler não consiga sair.
- Adiciona atrasos intencionais para que o crawler não sobrecarregue o servidor e pode usar Markov-babble para induzir o crawler a coletar dados.
- Este software foi projetado com fins maliciosos, e é preciso cautela ao usá-lo.
- Aviso
- Crawlers de LLM são extremamente persistentes, e usar este software fará com que eles continuem recebendo os dados que desejam.
- Não há como distinguir crawlers para mecanismos de busca de crawlers que treinam modelos de IA, e usar este software torna muito provável que o site desapareça dos resultados de busca.
- Como usar
- Recomenda-se esconder o tarpit atrás de Nginx ou Apache.
- O tarpit é configurado usando headers HTTP, e é fornecido um exemplo de snippet de configuração do nginx.
- Instalação
- Pode ser instalado com Docker ou manualmente.
- Requer Lua, SQLite, OpenSSL e vários módulos Lua.
- Depois da instalação, é possível começar ajustando o arquivo
config.yml.
- Bootstrap do Markov Babbler
- A funcionalidade de Markov requer um corpus treinado e pode ser treinada usando várias fontes de texto.
- Os dados de treinamento podem ser adicionados enviando-os para um endpoint POST.
- Estatísticas
- Fornece vários endpoints de estatísticas em formato JSON, permitindo verificar endereços IP e strings de user-agent.
- Uso defensivo do Nepenthes
- Impede que crawlers acessem o conteúdo real por meio de links do site para a localização do Nepenthes.
- A lista de endereços IP coletados pode ser usada para bloquear crawlers.
- Uso ofensivo do Nepenthes
- Em vez de bloquear os crawlers, é possível fornecer o máximo de dados possível para atrapalhar modelos de IA.
- Arquivo de configuração
- São explicadas todas as diretivas possíveis do arquivo
config.yaml.
- É possível ajustar o comportamento do Nepenthes por meio de várias configurações.
1 comentários
Comentários do Hacker News
Há comentários sobre como testar a vulnerabilidade de DDOS reflexivo do crawler do ChatGPT. Essa vulnerabilidade pode fazer com que uma única requisição HTTP provoque 5000 requisições HTTP
Alguém compartilha a experiência de ter operado um motel para bots no passado, mencionando casos em que crawlers ficaram presos por dias
Alguém compartilha a experiência de um site sem fins lucrativos que foi temporariamente tirado do ar devido ao rastreamento agressivo de bots da Amazon
Há a opinião de que um tarpit pode desacelerar o crawling, mas não terá grande efeito a menos que muitos sites o utilizem
Há a opinião de que um gerador de texto aleatório baseado em cadeia de Markov não seria um grande problema para crawlers de treinamento de LLM
Há um comentário dizendo que atualmente está ocorrendo um erro 502 Bad Gateway, e que não dá para saber se o site foi classificado como crawler web de IA ou se está apenas sobrecarregado
Há a opinião de que, a menos que esse conceito se popularize, será fácil filtrá-lo
Já existem sites "infinitos" na internet, e crawlers definem quantas páginas vão rastrear por domínio
Como abordagem simples, alguém está considerando enviar 100 requisições HTTP inválidas para cada requisição HTTP inválida recebida
Há a opinião de que sites que aplicarem esse software provavelmente desaparecerão de todos os resultados de busca