Atualização do relatório da falha #20013 do Google (14/12/2020)
(status.cloud.google.com)Atualização de 18/12/2020 (causa e medidas de resposta adicionadas)
#ROOT CAUSE
Desde outubro passado, foi introduzido um novo sistema automático de alocação de armazenamento no serviço de ID de usuário do Google. Alguns serviços ainda estavam usando o sistema de cotas antigo e tinham um problema em que reportavam o uso como 0. O fato de esse valor 0 não ter causado impacto imediato foi porque ainda restava tempo de expiração; depois que esse tempo expirou, ocorreu a falha quando a cota do serviço de ID de usuário foi reduzida. Havia verificações de segurança para validar mudanças de cota não intencionais, mas elas não tratavam o cenário de valor 0.
A cota do banco de dados de contas foi reduzida, as gravações do líder Paxos se tornaram impossíveis e, como a maioria das operações de leitura expirou, ocorreram erros nas consultas de autenticação.
#REMEDIATION AND PREVENTION
-
Revisão da automação de gerenciamento de cotas para evitar a implementação rápida de mudanças globais
-
Melhoria do monitoramento e dos alertas para detectar rapidamente configurações incorretas
-
Aumento da confiabilidade das ferramentas e dos processos para comunicação externa em caso de falhas causadas por ferramentas internas
-
Implementação de resiliência a erros de gravação no banco de dados do serviço de ID de usuário
-
Melhoria da resiliência dos serviços do GCP ao limitar de forma rigorosa o impacto sobre a área de dados em caso de falha do serviço de ID de usuário
- Foi atualizado um relatório detalhado sobre a falha que aconteceu em 14 de dezembro, então fui lendo e fiz uma tradução meio improvisada. Se houver erros, por favor me avisem. E, como sempre gosto muito do GeekNews, se eu encontrar algum conteúdo interessante sobre falhas, vou compartilhar aqui também.
Ainda não há comentários.