Relatório de incidente do GCP de 2025-06-12

roxie · 2025-06-15T03:00:39+09:00

Service Control: um dos módulos centrais usados pelas APIs do Google e do Google Cloud Em 2025-05-29, um novo recurso foi implantado no Service Control. Era uma funcionalidade para verificar novas políticas Em 2025-06-12, o problema começou quando uma nova política foi adicionada: loop de falha por null pointer* não havia feature flag. Ainda assim, foi acionado o red button para parada de emergência em regiões grandes como us-central-1, essa ação causou um herd effect* nos serviços internos dependentes, porque a estratégia de randomized exponential backoff** não estava implementada Isso significa que muito tráfego convergiu de uma vez só. ** Técnica para evitar sobrecarga de tráfego.

(status.cloud.google.com)

7 pontos por roxie 2025-06-15 | 5 comentários | Compartilhar no WhatsApp

Service Control: um dos módulos centrais usados pelas APIs do Google e do Google Cloud
- Em 2025-05-29, um novo recurso foi implantado no Service Control. Era uma funcionalidade para verificar novas políticas
- Em 2025-06-12, o problema começou quando uma nova política foi adicionada:
  - loop de falha por null pointer*
  - não havia feature flag. Ainda assim, foi acionado o red button para parada de emergência
  - em regiões grandes como us-central-1, essa ação causou um herd effect* nos serviços internos dependentes, porque a estratégia de randomized exponential backoff** não estava implementada

Isso significa que muito tráfego convergiu de uma vez só.
** Técnica para evitar sobrecarga de tráfego.

5 comentários

kunggom 2025-06-16

No GN+ também foi publicado um post tratando do mesmo relatório.

https://pt.news.hada.io/topic?id=21473

kunggom 2025-06-16

Parece que até em uma empresa grande como o Google há códigos espalhados por aí que, de forma surpreendente, nem sequer aplicaram uma medida básica como adicionar jitter no tratamento de novas tentativas.
Provavelmente isso foi deixado como estava porque esse problema nunca tinha estourado antes, mas pelo visto não mexer em código que está funcionando também é algo comum até em grandes empresas.

roxie 2025-06-15

Agora que vi, a formatação ficou um pouco quebrada. As duas últimas linhas são, respectivamente, observações sobre crash loop e randomized exponential backoff.

regentag 2025-06-15

Será que isso está relacionado à falha daquele post sobre a queda da internet que aconteceu há alguns dias?

roxie 2025-06-15

Sim, é isso mesmo, estamos falando dessa indisponibilidade.

Relatório de incidente do GCP de 2025-06-12

Leituras relacionadas

5 comentários