5 pontos por GN⁺ 2023-10-28 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Artigo sobre a evolução de 20 anos da engenharia de confiabilidade de sites (SRE) do Google
  • Nos últimos 20 anos, o poder computacional do Google cresceu 1.000 vezes, e a rede, 10.000 vezes
  • As ferramentas de SRE evoluíram de scripts em Python para um ecossistema integrado de serviços, chegando a uma plataforma unificada que oferece confiabilidade por padrão
  • Artigo que destaca 11 lições principais aprendidas com 20 anos de SRE no Google
  • Lição 1: O risco das medidas de mitigação deve variar de acordo com a gravidade da interrupção
  • Lição 2: Os mecanismos de recuperação devem ser totalmente testados antes de uma emergência
  • Lição 3: Todas as mudanças devem ser aplicadas gradualmente para evitar impactos em larga escala
  • Lição 4: Todas as dependências de serviço devem ter um "grande botão vermelho" para reverter estados indesejados
  • Lição 5: Testes unitários sozinhos não são suficientes; testes de integração também são necessários
  • Lição 6: Durante interrupções, múltiplos canais de comunicação, incluindo backups, são essenciais
  • Lição 7: Os serviços devem ser capazes de degradar seu desempenho de forma intencional e elegante em situações excepcionais
  • Lição 8: Resiliência a desastres e testes de recuperação devem fazer parte da estratégia de continuidade de negócios
  • Lição 9: As medidas de mitigação devem ser automatizadas para reduzir o tempo médio de resolução (MTTR)
  • Lição 10: Fazer rollouts frequentes, com testes adequados, pode reduzir a chance de que um rollout dê errado
  • Lição 11: Uma única versão global de hardware é um ponto único de falha, e manter uma infraestrutura diversificada pode evitar interrupções totais
  • Essas lições se baseiam em incidentes reais que o Google vivenciou e com os quais aprendeu ao longo dos anos

Ainda não há comentários.

Ainda não há comentários.