-
Meu servidor Git ficou instável por causa do crawler de IA da Amazon
-
Blog de apoio: se você gosta do blog, pode apoiar Xe no Patreon
-
Assinatura do Patreon: anúncio da EthicalAds
-
Atualização (2025-01-18 23:50 UTC): escrevi um proxy que faz uma verificação de proof-of-work antes de permitir requisições ao servidor Gitea. O nome é Anubis, e em breve vou escrever um post no blog sobre isso. No momento, pode ser visto em https://git.xeserv.us/. Está meio tosco, mas funciona bem o suficiente
-
Atualização (2025-01-18 19:00 UTC): desisti. Coloquei o servidor Gitea atrás de uma VPN. Estou trabalhando em um proxy reverso com proof-of-work para proteger o servidor dos bots. Devo colocá-lo no ar novamente em breve
-
Atualização (2025-01-17 17:50 UTC): adicionei o seguinte trecho à configuração do ingress:
nginx.ingress.kubernetes.io/configuration-snippet: | if ($http_user_agent ~* "(Amazon)" ){ return 418; }O bot ainda está atacando a partir de outros IPs. Cerca de 10% das requisições não têm o user agent amazonbot. Não sei o que fazer em seguida. Odeio o futuro
-
Pedido de ajuda: estou pedindo para alguém que opere o AmazonBot adicionar
git.xeserv.usà lista de domínios bloqueados. Se você conhece alguém na Amazon, por favor encaminhe esta mensagem. Se quiserem rastrear meu servidor Git, entrem em contato para que possam pagar um valor compatível com o custo de upgrade do hardware. Não quero fechar o servidor Gitea ao público, mas farei isso se for necessário. Bloquear bots de crawler de IA não adianta. Eles mentem, trocam o user agent e usam endereços IP residenciais como proxy. Eu só queria que as requisições parassem -
Já configurei o arquivo
robots.txtpara bloquear todos os bots:User-agent: * Disallow: /Não sei mais o que devo fazer
1 comentários
Comentários do Hacker News
É possível tentar resolver o problema pedindo a um advogado para redigir uma carta formal de "cessar e desistir" e enviá-la à Amazon
Sugestão de bloquear crawlers de IA adicionando links que humanos não visitariam no site e proibindo-os no
robots.txtBots de IA e SEO quase nunca respeitam o
robots.txte são difíceis de bloquearHá a possibilidade de que outro agente esteja se passando por crawler de IA da Amazon
Em um servidor pessoal, houve um problema de pico no uso de CPU por causa de crawlers de IA
robots.txte listas de bloqueio com base em user-agent reduziram o problema, mas não está claro se isso vai durarOpinião de que, em vez de bloquear crawlers de IA, talvez fosse possível resolver o problema fornecendo conteúdo nocivo
Levantada a possibilidade de ser um ataque DDoS disfarçado de Amazon
O site Pinboard também teve um aumento repentino de tráfego por causa de crawlers de IA e saiu do ar
Opinião de que seria bom se a Amazon oferecesse créditos da AWS para compensar os custos extras de tráfego
Antes de configurar o Nginx para bloquear, Bytespider e Amazonbot representavam 80% de todo o tráfego