- A Slack fez a transição, nos últimos 1,5 ano, de uma estrutura única para uma estrutura baseada em células para aumentar a redundância e limitar o impacto de falhas de site
- A mudança foi impulsionada pela necessidade de melhorar a resiliência do serviço da Slack após o incidente de junho de 2021, quando uma falha de rede causou degradação do serviço para clientes da Slack
- Na arquitetura celular, cada serviço opera como um serviço virtual por zona de disponibilidade (AZ), de modo que uma falha em uma AZ não afete as demais
- Ela também inclui a capacidade de drenar o tráfego de uma AZ com problemas, isolando-a de forma eficaz do restante do sistema
- O mecanismo de drenagem foi projetado para ser rápido, sem erros, gradual e independente dos recursos da AZ que está sendo drenada
- A transição para a arquitetura celular incluiu uma estratégia chamada siloing, que faz com que os serviços recebam e enviem tráfego apenas dentro de sua própria AZ. Isso ajuda a conter todas as falhas dentro de uma única AZ
- A implementação do mecanismo de movimentação de tráfego concentrou-se no sistema que roteia as consultas dos usuários para os serviços centrais
- A nova arquitetura oferece suporte à drenagem de AZ usando recursos do Envoy, como weighted clusters e atribuição dinâmica de pesos via RTDS
- Essa transição mudou a forma como a Slack opera e constrói seus serviços, fornecendo novas ferramentas robustas para gerenciamento de tráfego e mitigação de falhas
- Em futuras publicações no blog, a empresa abordará com mais profundidade os detalhes técnicos da implementação e discutirá como a nova arquitetura impactou a operação da Slack
1 comentários
Comentários do Hacker News