Relatório de incidente do GCP de 2025-06-12
(status.cloud.google.com)- Service Control: um dos módulos centrais usados pelas APIs do Google e do Google Cloud
- Em 2025-05-29, um novo recurso foi implantado no Service Control. Era uma funcionalidade para verificar novas políticas
- Em 2025-06-12, o problema começou quando uma nova política foi adicionada:
- loop de falha por
null pointer* - não havia
feature flag. Ainda assim, foi acionado o red button para parada de emergência - em regiões grandes como
us-central-1, essa ação causou um herd effect* nos serviços internos dependentes, porque a estratégia de randomized exponential backoff** não estava implementada
- loop de falha por
- Isso significa que muito tráfego convergiu de uma vez só.
** Técnica para evitar sobrecarga de tráfego.
5 comentários
No GN+ também foi publicado um post tratando do mesmo relatório.
Parece que até em uma empresa grande como o Google há códigos espalhados por aí que, de forma surpreendente, nem sequer aplicaram uma medida básica como adicionar
jitterno tratamento de novas tentativas.Provavelmente isso foi deixado como estava porque esse problema nunca tinha estourado antes, mas pelo visto não mexer em código que está funcionando também é algo comum até em grandes empresas.
Agora que vi, a formatação ficou um pouco quebrada. As duas últimas linhas são, respectivamente, observações sobre crash loop e randomized exponential backoff.
Será que isso está relacionado à falha daquele post sobre a queda da internet que aconteceu há alguns dias?
Sim, é isso mesmo, estamos falando dessa indisponibilidade.