Relatório da indisponibilidade da Cloudflare em 2 de julho de 2019 [Tradução]

(ryanking13.github.io)

12 pontos por xguru 2019-07-21 | 5 comentários | Compartilhar no WhatsApp

Uma organização feita pelo CTO da Cloudflare sobre a visão geral do incidente e as medidas tomadas, mostrando como problemas podem surgir em organizações de grande porte e como elas lidam com isso

5 comentários

blurblah 2019-07-24

O apêndice do texto original também é interessante. Há uma explicação detalhada de por que o padrão problemático .*.*=.* acabou esgotando a CPU, e parece significativo que, além de corrigir a expressão regular, eles também tenham considerado substituir o mecanismo como alternativa.

curioe 2019-07-21

É um relatório de incidente excelente. Já é impressionante por si só o fato de explicar em detalhes como lidaram com a situação, mas há ainda muito a aprender no modo como não trataram isso apenas como o erro de um único engenheiro e, em vez disso, identificaram causas múltiplas e foram resolvendo cada uma delas. Houve uma falha, mas dá até a impressão de que isso só vai aumentar a confiança na empresa.

mytory 2019-07-23

Concordo bastante. Também me impressionou o fato de terem apontado causas múltiplas. Acho que há muito a aprender ao não tratar isso apenas como o erro de um único engenheiro.

quake21 2019-07-22

Pois é. Talvez eles até tenham algum executivo responsável pelos relatórios de incidentes? Já é impressionante conseguirem encontrar e analisar as causas com esse nível de detalhamento, mas o relatório também foi tão bem escrito que dá até a impressão de que precisava mesmo ser tão detalhado assim.

lifthrasiir 2019-07-22

John Graham-Cumming, CTO da Cloudflare e autor desse texto, já era um blogueiro famoso. https://blog.jgc.org/

Relatório da indisponibilidade da Cloudflare em 2 de julho de 2019 [Tradução]

Leituras relacionadas

5 comentários