- Entre 2 e 4 de novembro de 2023, os serviços de plano de controle e analytics da Cloudflare ficaram indisponíveis.
- O plano de controle inclui principalmente as interfaces voltadas ao cliente dos serviços da Cloudflare, enquanto os serviços de analytics incluem logging e relatórios analíticos.
- Este incidente foi causado por uma falha de energia no data center da Flexential, que abriga o maior cluster de analytics da Cloudflare e uma parte crítica de seu cluster de alta disponibilidade.
- Embora sistemas de alta disponibilidade tenham sido implantados para evitar esse tipo de interrupção, alguns sistemas importantes tinham dependências não documentadas que os tornaram indisponíveis durante o incidente.
- O plano de controle e os sistemas de analytics da Cloudflare operam principalmente em três data centers nos arredores de Hillsboro, Oregon, projetados para funcionar de forma independente e continuar operando mesmo se um deles ficar offline.
- Esta interrupção revelou que alguns serviços, especialmente os mais novos, ainda não haviam sido adicionados ao cluster de alta disponibilidade, e que o sistema de logging não fazia parte desse cluster.
- A falha de energia no data center da Flexential foi causada por um evento não planejado de manutenção que afetou o fornecimento independente de energia que entra no prédio, provocando uma falha de aterramento no transformador.
- A Cloudflare conseguiu restaurar a maior parte do plano de controle em uma instalação de recuperação de desastres e, depois que essa instalação entrou em operação, a maioria dos clientes provavelmente não enfrentou problemas com a maior parte dos produtos.
- No entanto, outros serviços levaram mais tempo para serem restaurados, e os clientes que dependiam deles podem ter enfrentado problemas até a resolução completa do incidente.
- Com base nas lições aprendidas, a Cloudflare está implementando mudanças, incluindo remover dependências de data centers centrais, garantir que as funções do plano de controle continuem mesmo se todos os data centers principais ficarem offline e exigir que todos os produtos e funcionalidades dependam do cluster de alta disponibilidade e tenham um plano confiável de recuperação de desastres.
- A empresa também está realizando testes de caos mais rigorosos para todas as funções dos data centers, auditando todos os data centers centrais e desenvolvendo um plano de recuperação de desastres para logging e analytics.
1 comentários
Comentários do Hacker News