7 pontos por roxie 2025-06-15 | 5 comentários | Compartilhar no WhatsApp
  • Service Control: um dos módulos centrais usados pelas APIs do Google e do Google Cloud
    • Em 2025-05-29, um novo recurso foi implantado no Service Control. Era uma funcionalidade para verificar novas políticas
    • Em 2025-06-12, o problema começou quando uma nova política foi adicionada:
      • loop de falha por null pointer*
      • não havia feature flag. Ainda assim, foi acionado o red button para parada de emergência
      • em regiões grandes como us-central-1, essa ação causou um herd effect* nos serviços internos dependentes, porque a estratégia de randomized exponential backoff** não estava implementada
  • Isso significa que muito tráfego convergiu de uma vez só.
    ** Técnica para evitar sobrecarga de tráfego.

5 comentários

 
kunggom 2025-06-16

No GN+ também foi publicado um post tratando do mesmo relatório.

 
kunggom 2025-06-16

Parece que até em uma empresa grande como o Google há códigos espalhados por aí que, de forma surpreendente, nem sequer aplicaram uma medida básica como adicionar jitter no tratamento de novas tentativas.
Provavelmente isso foi deixado como estava porque esse problema nunca tinha estourado antes, mas pelo visto não mexer em código que está funcionando também é algo comum até em grandes empresas.

 
roxie 2025-06-15

Agora que vi, a formatação ficou um pouco quebrada. As duas últimas linhas são, respectivamente, observações sobre crash loop e randomized exponential backoff.

 
regentag 2025-06-15

Será que isso está relacionado à falha daquele post sobre a queda da internet que aconteceu há alguns dias?

 
roxie 2025-06-15

Sim, é isso mesmo, estamos falando dessa indisponibilidade.