1 pontos por GN⁺ 2025-01-19 | 1 comentários | Compartilhar no WhatsApp
  • Meu servidor Git ficou instável por causa do crawler de IA da Amazon

  • Blog de apoio: se você gosta do blog, pode apoiar Xe no Patreon

  • Assinatura do Patreon: anúncio da EthicalAds

  • Atualização (2025-01-18 23:50 UTC): escrevi um proxy que faz uma verificação de proof-of-work antes de permitir requisições ao servidor Gitea. O nome é Anubis, e em breve vou escrever um post no blog sobre isso. No momento, pode ser visto em https://git.xeserv.us/. Está meio tosco, mas funciona bem o suficiente

  • Atualização (2025-01-18 19:00 UTC): desisti. Coloquei o servidor Gitea atrás de uma VPN. Estou trabalhando em um proxy reverso com proof-of-work para proteger o servidor dos bots. Devo colocá-lo no ar novamente em breve

  • Atualização (2025-01-17 17:50 UTC): adicionei o seguinte trecho à configuração do ingress:

    nginx.ingress.kubernetes.io/configuration-snippet: |
      if ($http_user_agent ~* "(Amazon)" ){
        return 418;
      }
    

    O bot ainda está atacando a partir de outros IPs. Cerca de 10% das requisições não têm o user agent amazonbot. Não sei o que fazer em seguida. Odeio o futuro

  • Pedido de ajuda: estou pedindo para alguém que opere o AmazonBot adicionar git.xeserv.us à lista de domínios bloqueados. Se você conhece alguém na Amazon, por favor encaminhe esta mensagem. Se quiserem rastrear meu servidor Git, entrem em contato para que possam pagar um valor compatível com o custo de upgrade do hardware. Não quero fechar o servidor Gitea ao público, mas farei isso se for necessário. Bloquear bots de crawler de IA não adianta. Eles mentem, trocam o user agent e usam endereços IP residenciais como proxy. Eu só queria que as requisições parassem

  • Já configurei o arquivo robots.txt para bloquear todos os bots:

    User-agent: *
    Disallow: /
    

    Não sei mais o que devo fazer

1 comentários

 
GN⁺ 2025-01-19
Comentários do Hacker News
  • É possível tentar resolver o problema pedindo a um advogado para redigir uma carta formal de "cessar e desistir" e enviá-la à Amazon

    • Se a Amazon não parar, pode-se chamar atenção com uma denúncia criminal
  • Sugestão de bloquear crawlers de IA adicionando links que humanos não visitariam no site e proibindo-os no robots.txt

    • Se um endereço IP visitar esse link, ele é bloqueado por 24 horas
  • Bots de IA e SEO quase nunca respeitam o robots.txt e são difíceis de bloquear

    • Se um crawler de IA quiser acesso, ele deve seguir as regras ou pagar por isso
  • Há a possibilidade de que outro agente esteja se passando por crawler de IA da Amazon

    • IPs residenciais rotativos e strings de user-agent variáveis parecem suspeitos
  • Em um servidor pessoal, houve um problema de pico no uso de CPU por causa de crawlers de IA

    • robots.txt e listas de bloqueio com base em user-agent reduziram o problema, mas não está claro se isso vai durar
  • Opinião de que, em vez de bloquear crawlers de IA, talvez fosse possível resolver o problema fornecendo conteúdo nocivo

    • Se a Amazon descobrir isso, pode acabar gastando dinheiro para resolver o problema
  • Levantada a possibilidade de ser um ataque DDoS disfarçado de Amazon

    • É suspeito que as requisições venham de IPs residenciais
  • O site Pinboard também teve um aumento repentino de tráfego por causa de crawlers de IA e saiu do ar

    • Como não foi possível bloquear por faixa de IP, foi necessário usar CAPTCHA
  • Opinião de que seria bom se a Amazon oferecesse créditos da AWS para compensar os custos extras de tráfego

    • Esperança de que isso pudesse ser compensado com receita de anúncios
  • Antes de configurar o Nginx para bloquear, Bytespider e Amazonbot representavam 80% de todo o tráfego

    • O ClaudeBot fez o Redmine ultrapassar em um mês o volume de tráfego de 5 anos