Relatório da falha do Slack em 12/05/2020
(slack.engineering)Explicação sobre o incidente em que o Slack ficou totalmente fora do ar por um tempo considerável pela primeira vez
-
Após o deploy de uma mudança de configuração do DB, foi encontrado em poucos minutos um bug de performance que aumentava a carga no DB, então foi feito rollback
-
Mesmo assim, por causa desse problema, o autoscaling do web app foi ativado, aumentando o número de instâncias além do Hard Limit
-
Com isso, ocorreu um bug na parte de atualização da lista de hosts no load balancer, e as novas instâncias não puderam ser registradas
→ HAProxy + Consul
-
Depois de 8 horas, as únicas instâncias que restavam na lista de hosts eram as mais antigas, e quando aconteceu o scale-down, as instâncias antigas foram desligadas
-
As novas instâncias deveriam assumir isso, mas elas não estavam na lista de hosts do load balancer.
Ainda não há comentários.