2 pontos por GN⁺ 2023-11-05 | 1 comentários | Compartilhar no WhatsApp
  • Entre 2 e 4 de novembro de 2023, os serviços de plano de controle e analytics da Cloudflare ficaram indisponíveis.
  • O plano de controle inclui principalmente as interfaces voltadas ao cliente dos serviços da Cloudflare, enquanto os serviços de analytics incluem logging e relatórios analíticos.
  • Este incidente foi causado por uma falha de energia no data center da Flexential, que abriga o maior cluster de analytics da Cloudflare e uma parte crítica de seu cluster de alta disponibilidade.
  • Embora sistemas de alta disponibilidade tenham sido implantados para evitar esse tipo de interrupção, alguns sistemas importantes tinham dependências não documentadas que os tornaram indisponíveis durante o incidente.
  • O plano de controle e os sistemas de analytics da Cloudflare operam principalmente em três data centers nos arredores de Hillsboro, Oregon, projetados para funcionar de forma independente e continuar operando mesmo se um deles ficar offline.
  • Esta interrupção revelou que alguns serviços, especialmente os mais novos, ainda não haviam sido adicionados ao cluster de alta disponibilidade, e que o sistema de logging não fazia parte desse cluster.
  • A falha de energia no data center da Flexential foi causada por um evento não planejado de manutenção que afetou o fornecimento independente de energia que entra no prédio, provocando uma falha de aterramento no transformador.
  • A Cloudflare conseguiu restaurar a maior parte do plano de controle em uma instalação de recuperação de desastres e, depois que essa instalação entrou em operação, a maioria dos clientes provavelmente não enfrentou problemas com a maior parte dos produtos.
  • No entanto, outros serviços levaram mais tempo para serem restaurados, e os clientes que dependiam deles podem ter enfrentado problemas até a resolução completa do incidente.
  • Com base nas lições aprendidas, a Cloudflare está implementando mudanças, incluindo remover dependências de data centers centrais, garantir que as funções do plano de controle continuem mesmo se todos os data centers principais ficarem offline e exigir que todos os produtos e funcionalidades dependam do cluster de alta disponibilidade e tenham um plano confiável de recuperação de desastres.
  • A empresa também está realizando testes de caos mais rigorosos para todas as funções dos data centers, auditando todos os data centers centrais e desenvolvendo um plano de recuperação de desastres para logging e analytics.

1 comentários

 
GN⁺ 2023-11-05
Comentários do Hacker News
  • Artigo sobre a grande indisponibilidade da Cloudflare; a empresa atribui o problema a uma falha de energia no data center operado pelo fornecedor Flexential.
  • Alguns comentaristas criticam a Cloudflare por transferir a culpa para a Flexential e divulgar informações confidenciais sobre o fornecedor.
  • A causa raiz da indisponibilidade foi o fato de a Cloudflare depender de um único data center, algo que alguns comentaristas consideram vergonhoso para a reputação da empresa.
  • O processo de recuperação levou mais tempo do que a própria indisponibilidade, e alguns serviços demoraram cerca de 30 horas para serem totalmente restaurados, porque muitos dependiam uns dos outros.
  • Alguns comentaristas expressam insatisfação com a comunicação da Cloudflare durante a indisponibilidade, especialmente no caso de clientes corporativos.
  • Apesar dos problemas, alguns comentaristas elogiam a transparência da Cloudflare e o nível de detalhe do relatório pós-incidente.
  • Alguns comentaristas demonstram preocupação com falhas de redundância na Cloudflare e com a falta de distribuição geográfica do plano de controle.
  • Os comentaristas também criticam a Cloudflare por não ter colocado todos os serviços em clusters de alta disponibilidade e por não ter testado todos os cenários possíveis de queda de energia.
  • Alguns comentaristas elogiam o elemento humano presente no relatório, reconhecendo que a Cloudflare precisou de pausas para evitar erros adicionais durante o processo de recuperação.
  • Os comentaristas destacam a importância da capacidade de recuperar um data center a partir de um estado totalmente offline e criticam a Cloudflare por não ter testado esse cenário.
  • Alguns comentaristas expressam surpresa com a estrutura do artigo, já que a maior parte da publicação discute o fornecedor terceirizado e dá menos foco aos próprios esforços de recuperação da Cloudflare.