Relatório da indisponibilidade da Cloudflare em 2 de julho de 2019 [Tradução]
(ryanking13.github.io)Uma organização feita pelo CTO da Cloudflare sobre a visão geral do incidente e as medidas tomadas, mostrando como problemas podem surgir em organizações de grande porte e como elas lidam com isso
5 comentários
O apêndice do texto original também é interessante. Há uma explicação detalhada de por que o padrão problemático
.*.*=.*acabou esgotando a CPU, e parece significativo que, além de corrigir a expressão regular, eles também tenham considerado substituir o mecanismo como alternativa.É um relatório de incidente excelente. Já é impressionante por si só o fato de explicar em detalhes como lidaram com a situação, mas há ainda muito a aprender no modo como não trataram isso apenas como o erro de um único engenheiro e, em vez disso, identificaram causas múltiplas e foram resolvendo cada uma delas. Houve uma falha, mas dá até a impressão de que isso só vai aumentar a confiança na empresa.
Concordo bastante. Também me impressionou o fato de terem apontado causas múltiplas. Acho que há muito a aprender ao não tratar isso apenas como o erro de um único engenheiro.
Pois é. Talvez eles até tenham algum executivo responsável pelos relatórios de incidentes? Já é impressionante conseguirem encontrar e analisar as causas com esse nível de detalhamento, mas o relatório também foi tão bem escrito que dá até a impressão de que precisava mesmo ser tão detalhado assim.
John Graham-Cumming, CTO da Cloudflare e autor desse texto, já era um blogueiro famoso. https://blog.jgc.org/