Compartilhando detalhes sobre o incidente recente que afetou um cliente
Suporte ao cliente do Google Cloud
- No início deste mês, ocorreu um incidente no Google Cloud que afetou o cliente australiano UniSuper.
- Logo após o início do incidente, a prioridade máxima era trabalhar com o cliente para restaurar completamente seus sistemas.
- Pouco depois do começo do incidente, ele foi reconhecido publicamente por meio de uma declaração conjunta com o cliente.
- Após a restauração completa dos sistemas do cliente, a revisão interna foi concluída.
- As informações estão sendo divulgadas para esclarecer a natureza do incidente e fornecer uma explicação precisa em nome da transparência.
- O Google Cloud tomou medidas para impedir que esse incidente específico e isolado volte a ocorrer.
- O impacto deste incidente foi extremamente decepcionante, e pedimos sinceras desculpas pelo transtorno causado ao cliente.
Escopo do impacto
Tecnologias e serviços afetados
- Este incidente afetou os seguintes serviços gerenciados pelo Google:
- Um cliente em uma região de nuvem.
- Um dos serviços do Google Cloud usados por esse cliente: Google Cloud VMware Engine (GCVE).
- Uma entre várias nuvens privadas de GCVE do cliente, distribuída por duas zonas.
Itens não afetados
- Este incidente não afetou os seguintes itens:
- Outros serviços do Google Cloud.
- Outros clientes que usam GCVE ou outros serviços do Google Cloud.
- Outras nuvens privadas de GCVE do cliente, contas do Google, organizações, pastas ou projetos.
- Backups de dados do cliente armazenados na mesma região (Google Cloud Storage).
Causa do incidente
Resumo
- Durante a implantação inicial de uma nuvem privada do Google Cloud VMware Engine (GCVE) para o cliente, um operador do Google configurou incorretamente o serviço GCVE usando uma ferramenta interna. Isso ocorreu porque um parâmetro foi deixado em branco.
- Como resultado, a nuvem privada de GCVE do cliente foi configurada com um período fixo e, ao fim desse período, foi configurada para ser excluída automaticamente.
- Tanto a causa do incidente quanto o comportamento do sistema foram corrigidos para que isso não volte a acontecer.
- Este incidente não afetou nenhum outro serviço do Google Cloud além de uma nuvem privada de GCVE desse cliente.
- Outros clientes não foram afetados por este incidente.
Análise detalhada
Implantação usando um processo de exceção
- No início de 2023, um operador do Google usou uma ferramenta interna para implantar uma das nuvens privadas de GCVE do cliente a fim de atender a requisitos específicos de alocação de capacidade.
- Essa ferramenta interna de gerenciamento de capacidade foi descontinuada no quarto trimestre de 2023 e agora o processo é totalmente automatizado, sem necessidade de intervenção humana.
Comportamento não intencional causado por um parâmetro de entrada vazio
- O operador do Google seguiu os protocolos internos de controle.
- No entanto, ao usar a ferramenta interna para provisionar a nuvem privada do cliente, um dos parâmetros de entrada ficou em branco.
- Isso fez com que o sistema atribuísse a esse parâmetro um valor padrão, até então desconhecido, de período fixo de 1 ano.
- Após o término do período de 1 ano atribuído pelo sistema, a nuvem privada de GCVE do cliente foi excluída.
- Como a exclusão ocorreu em decorrência de o operador do Google ter deixado o parâmetro em branco ao usar a ferramenta interna, nenhuma notificação foi enviada ao cliente.
- Se a exclusão tivesse sido iniciada pelo cliente, ela só teria ocorrido após o envio de uma notificação ao cliente.
Recuperação
- O cliente e as equipes do Google trabalharam juntos 24 horas por dia durante vários dias para recuperar a nuvem privada de GCVE do cliente, restaurar as configurações de rede e segurança, restaurar os aplicativos e recuperar os dados, restabelecendo a operação completa.
- Isso foi possível graças à abordagem sólida e resiliente de arquitetura adotada pelo cliente.
- Os backups de dados armazenados no Google Cloud Storage na mesma região não foram afetados pela exclusão e, junto com um software de backup de terceiros, desempenharam papel crucial na recuperação rápida.
Ações corretivas
- O Google Cloud tomou várias medidas para impedir que esse incidente volte a acontecer:
- Descontinuou a ferramenta interna que causou este incidente. Essa parte agora é totalmente automatizada e pode ser controlada pelo cliente por meio da interface do usuário.
- Limpou o banco de dados do sistema e revisou manualmente todas as nuvens privadas de GCVE para garantir que nenhuma outra implantação de GCVE estivesse em risco.
- Corrigiu o comportamento do sistema nesses fluxos de implantação para impedir que nuvens privadas de GCVE sejam configuradas para exclusão.
Conclusão
- Este é o primeiro incidente dessa natureza dentro do Google Cloud. Não se trata de um problema sistêmico.
- Os serviços do Google Cloud contam com fortes mecanismos de proteção, como soft delete, notificação prévia e intervenção humana.
- Foi confirmado que essas proteções continuam em vigor.
- Trabalhar em estreita colaboração com o cliente é essencial para uma recuperação rápida. O CIO e a equipe técnica do cliente merecem reconhecimento por terem colaborado de perto com a equipe do Google Cloud para conduzir a recuperação 24 horas por dia de forma rápida e precisa.
- Uma gestão de riscos sólida e resiliente é essencial para uma recuperação rápida em caso de incidentes inesperados.
- O Google Cloud continua tendo uma das infraestruturas de nuvem mais resilientes e confiáveis do mundo. Apesar deste incidente isolado, seu uptime e sua resiliência já foram verificados de forma independente.
Opinião do GN⁺
- Importância do incidente: Este caso mostra como é importante que provedores de serviços em nuvem resolvam problemas rapidamente e cooperem com os clientes.
- Necessidade de automação: Destaca como a automação de ferramentas internas é importante, especialmente quando erros humanos podem ter grande impacto sobre os sistemas.
- Colaboração com o cliente: Mostra como a colaboração estreita com o cliente é importante para resolver problemas. Isso também é um fator importante para construir confiança.
- Importância do backup de dados: Ressalta como backups de dados são importantes e essenciais para uma recuperação rápida em caso de incidentes inesperados.
- Medidas preventivas futuras: As ações tomadas pelo Google Cloud para evitar a recorrência do incidente podem servir de bom exemplo para outros provedores de serviços em nuvem.
1 comentários
Comentário no Hacker News
Resumo da coletânea de comentários do Hacker News
Insatisfação com a profundidade da correção
Perguntas sobre as medidas de proteção para clientes do GCP
Dúvidas sobre o trabalho 24x7
Incidentes relacionados
Surpresa com o erro do lado do Google
Rigor da análise
Expectativas em relação ao GCP
Elogios ao esforço do cliente
Experiência de um cliente da UniSuper
Mal-entendido no anúncio inicial