Relatório da falha do Slack em 12/05/2020

(slack.engineering)

10 pontos por xguru 2020-07-08 | Ainda não há comentários. | Compartilhar no WhatsApp

Explicação sobre o incidente em que o Slack ficou totalmente fora do ar por um tempo considerável pela primeira vez

Após o deploy de uma mudança de configuração do DB, foi encontrado em poucos minutos um bug de performance que aumentava a carga no DB, então foi feito rollback
Mesmo assim, por causa desse problema, o autoscaling do web app foi ativado, aumentando o número de instâncias além do Hard Limit
Com isso, ocorreu um bug na parte de atualização da lista de hosts no load balancer, e as novas instâncias não puderam ser registradas

→ HAProxy + Consul

Depois de 8 horas, as únicas instâncias que restavam na lista de hosts eram as mais antigas, e quando aconteceu o scale-down, as instâncias antigas foram desligadas
As novas instâncias deveriam assumir isso, mas elas não estavam na lista de hosts do load balancer.

Ainda não há comentários.

Ainda não há comentários.