10 pontos por xguru 2020-07-08 | Ainda não há comentários. | Compartilhar no WhatsApp

Explicação sobre o incidente em que o Slack ficou totalmente fora do ar por um tempo considerável pela primeira vez

  1. Após o deploy de uma mudança de configuração do DB, foi encontrado em poucos minutos um bug de performance que aumentava a carga no DB, então foi feito rollback

  2. Mesmo assim, por causa desse problema, o autoscaling do web app foi ativado, aumentando o número de instâncias além do Hard Limit

  3. Com isso, ocorreu um bug na parte de atualização da lista de hosts no load balancer, e as novas instâncias não puderam ser registradas

→ HAProxy + Consul

  1. Depois de 8 horas, as únicas instâncias que restavam na lista de hosts eram as mais antigas, e quando aconteceu o scale-down, as instâncias antigas foram desligadas

  2. As novas instâncias deveriam assumir isso, mas elas não estavam na lista de hosts do load balancer.

Ainda não há comentários.

Ainda não há comentários.