5 pontos por GN⁺ 2025-01-17 | 1 comentários | Compartilhar no WhatsApp
  • Software para capturar crawlers web, especialmente os voltados a raspar dados para grandes modelos de linguagem (LLMs).
    • Gera uma sequência infinita de páginas para fazer com que o crawler não consiga sair.
    • Adiciona atrasos intencionais para que o crawler não sobrecarregue o servidor e pode usar Markov-babble para induzir o crawler a coletar dados.
    • Este software foi projetado com fins maliciosos, e é preciso cautela ao usá-lo.
  • Aviso
    • Crawlers de LLM são extremamente persistentes, e usar este software fará com que eles continuem recebendo os dados que desejam.
    • Não há como distinguir crawlers para mecanismos de busca de crawlers que treinam modelos de IA, e usar este software torna muito provável que o site desapareça dos resultados de busca.
  • Como usar
    • Recomenda-se esconder o tarpit atrás de Nginx ou Apache.
    • O tarpit é configurado usando headers HTTP, e é fornecido um exemplo de snippet de configuração do nginx.
  • Instalação
    • Pode ser instalado com Docker ou manualmente.
    • Requer Lua, SQLite, OpenSSL e vários módulos Lua.
    • Depois da instalação, é possível começar ajustando o arquivo config.yml.
  • Bootstrap do Markov Babbler
    • A funcionalidade de Markov requer um corpus treinado e pode ser treinada usando várias fontes de texto.
    • Os dados de treinamento podem ser adicionados enviando-os para um endpoint POST.
  • Estatísticas
    • Fornece vários endpoints de estatísticas em formato JSON, permitindo verificar endereços IP e strings de user-agent.
  • Uso defensivo do Nepenthes
    • Impede que crawlers acessem o conteúdo real por meio de links do site para a localização do Nepenthes.
    • A lista de endereços IP coletados pode ser usada para bloquear crawlers.
  • Uso ofensivo do Nepenthes
    • Em vez de bloquear os crawlers, é possível fornecer o máximo de dados possível para atrapalhar modelos de IA.
  • Arquivo de configuração
    • São explicadas todas as diretivas possíveis do arquivo config.yaml.
    • É possível ajustar o comportamento do Nepenthes por meio de várias configurações.

1 comentários

 
GN⁺ 2025-01-17
Comentários do Hacker News
  • Há comentários sobre como testar a vulnerabilidade de DDOS reflexivo do crawler do ChatGPT. Essa vulnerabilidade pode fazer com que uma única requisição HTTP provoque 5000 requisições HTTP

    • OpenAI e Microsoft ignoraram essa vulnerabilidade, e o processo de reporte foi muito difícil
    • Recomenda-se não explorar essa vulnerabilidade por razões legais
  • Alguém compartilha a experiência de ter operado um motel para bots no passado, mencionando casos em que crawlers ficaram presos por dias

    • Segurança muitas vezes é uma preocupação posterior, e a luta contra crawlers é uma corrida sem fim
  • Alguém compartilha a experiência de um site sem fins lucrativos que foi temporariamente tirado do ar devido ao rastreamento agressivo de bots da Amazon

    • A Siteground restaurou o site, e depois disso o bot da Amazon foi adicionado ao robots.txt
    • A pessoa expressa insatisfação com a situação atual e questiona se tarpit ou leis poderiam ser uma solução
  • Há a opinião de que um tarpit pode desacelerar o crawling, mas não terá grande efeito a menos que muitos sites o utilizem

    • É difícil identificar bots maliciosos, e existe o risco de ser excluído dos resultados de busca
  • Há a opinião de que um gerador de texto aleatório baseado em cadeia de Markov não seria um grande problema para crawlers de treinamento de LLM

    • Em vez de poluição aleatória, usar texto repetitivo e sem sentido pode ser mais eficaz
  • Há um comentário dizendo que atualmente está ocorrendo um erro 502 Bad Gateway, e que não dá para saber se o site foi classificado como crawler web de IA ou se está apenas sobrecarregado

  • Há a opinião de que, a menos que esse conceito se popularize, será fácil filtrá-lo

    • Grandes empresas podem montar equipes para bloquear esse tipo de software
  • Já existem sites "infinitos" na internet, e crawlers definem quantas páginas vão rastrear por domínio

    • Sites populares recebem muito rastreamento, enquanto sites desconhecidos recebem pouco
  • Como abordagem simples, alguém está considerando enviar 100 requisições HTTP inválidas para cada requisição HTTP inválida recebida

  • Há a opinião de que sites que aplicarem esse software provavelmente desaparecerão de todos os resultados de busca

    • Isso pode ser um bug, ou pode ser uma funcionalidade