Meu servidor Git ficou instável por causa do crawler de IA da Amazon

(xeiaso.net)

1 pontos por GN⁺ 2025-01-19 | 1 comentários | Compartilhar no WhatsApp

Meu servidor Git ficou instável por causa do crawler de IA da Amazon
Blog de apoio: se você gosta do blog, pode apoiar Xe no Patreon
Assinatura do Patreon: anúncio da EthicalAds
Atualização (2025-01-18 23:50 UTC): escrevi um proxy que faz uma verificação de proof-of-work antes de permitir requisições ao servidor Gitea. O nome é Anubis, e em breve vou escrever um post no blog sobre isso. No momento, pode ser visto em https://git.xeserv.us/. Está meio tosco, mas funciona bem o suficiente
Atualização (2025-01-18 19:00 UTC): desisti. Coloquei o servidor Gitea atrás de uma VPN. Estou trabalhando em um proxy reverso com proof-of-work para proteger o servidor dos bots. Devo colocá-lo no ar novamente em breve
Atualização (2025-01-17 17:50 UTC): adicionei o seguinte trecho à configuração do ingress:
```
nginx.ingress.kubernetes.io/configuration-snippet: |
  if ($http_user_agent ~* "(Amazon)" ){
    return 418;
  }
```
O bot ainda está atacando a partir de outros IPs. Cerca de 10% das requisições não têm o user agent amazonbot. Não sei o que fazer em seguida. Odeio o futuro
Pedido de ajuda: estou pedindo para alguém que opere o AmazonBot adicionar git.xeserv.us à lista de domínios bloqueados. Se você conhece alguém na Amazon, por favor encaminhe esta mensagem. Se quiserem rastrear meu servidor Git, entrem em contato para que possam pagar um valor compatível com o custo de upgrade do hardware. Não quero fechar o servidor Gitea ao público, mas farei isso se for necessário. Bloquear bots de crawler de IA não adianta. Eles mentem, trocam o user agent e usam endereços IP residenciais como proxy. Eu só queria que as requisições parassem
Já configurei o arquivo robots.txt para bloquear todos os bots:
```
User-agent: *
Disallow: /
```
Não sei mais o que devo fazer

1 comentários

GN⁺ 2025-01-19

Comentários do Hacker News

É possível tentar resolver o problema pedindo a um advogado para redigir uma carta formal de "cessar e desistir" e enviá-la à Amazon
- Se a Amazon não parar, pode-se chamar atenção com uma denúncia criminal
Sugestão de bloquear crawlers de IA adicionando links que humanos não visitariam no site e proibindo-os no robots.txt
- Se um endereço IP visitar esse link, ele é bloqueado por 24 horas
Bots de IA e SEO quase nunca respeitam o robots.txt e são difíceis de bloquear
- Se um crawler de IA quiser acesso, ele deve seguir as regras ou pagar por isso
Há a possibilidade de que outro agente esteja se passando por crawler de IA da Amazon
- IPs residenciais rotativos e strings de user-agent variáveis parecem suspeitos
Em um servidor pessoal, houve um problema de pico no uso de CPU por causa de crawlers de IA
- robots.txt e listas de bloqueio com base em user-agent reduziram o problema, mas não está claro se isso vai durar
Opinião de que, em vez de bloquear crawlers de IA, talvez fosse possível resolver o problema fornecendo conteúdo nocivo
- Se a Amazon descobrir isso, pode acabar gastando dinheiro para resolver o problema
Levantada a possibilidade de ser um ataque DDoS disfarçado de Amazon
- É suspeito que as requisições venham de IPs residenciais
O site Pinboard também teve um aumento repentino de tráfego por causa de crawlers de IA e saiu do ar
- Como não foi possível bloquear por faixa de IP, foi necessário usar CAPTCHA
Opinião de que seria bom se a Amazon oferecesse créditos da AWS para compensar os custos extras de tráfego
- Esperança de que isso pudesse ser compensado com receita de anúncios
Antes de configurar o Nginx para bloquear, Bytespider e Amazonbot representavam 80% de todo o tráfego
- O ClaudeBot fez o Redmine ultrapassar em um mês o volume de tráfego de 5 anos

Meu servidor Git ficou instável por causa do crawler de IA da Amazon

Meu servidor Git ficou instável por causa do crawler de IA da Amazon

Leituras relacionadas

1 comentários

Comentários do Hacker News