Falha no GCP

(status.cloud.google.com)

2 pontos por GN⁺ 2025-06-13 | 1 comentários | Compartilhar no WhatsApp

O painel Google Cloud Service Health mostra o status dos serviços do Google Cloud por produto e localidade, e a tela atual está no estado sem incidentes graves amplos
O impacto por projeto pode não ficar claro apenas no painel geral, por isso é necessário verificar alertas personalizados, dados de API e logs no Personalized Service Health
O escopo de status é dividido em Americas, Europe, Asia Pacific, Middle East, Africa, Multi-regions e Non-regional, permitindo ver o status por produto no eixo de localidade
Multi-regions são localidades redundantes e distribuídas entre várias regiões, enquanto Non-regional indica o status de serviços distribuídos globalmente, não vinculados a uma região específica
Histórico de incidentes, RSS, JSON History e JSON Product Catalog são fornecidos; os horários exibidos seguem US/Pacific, e a última atualização foi em 3 de julho de 2026 às 12:35 PDT

Status atual do Google Cloud

O Google Cloud Service Health fornece informações de status dos serviços do Google Cloud
O status no topo do painel atualmente aparece como No broad severe incidents
Eventos que podem afetar projetos devem ser verificados na visualização por conta
O horário da última atualização é 3 de julho de 2026 às 12:35 PDT

Verificação de falhas por projeto

O Personalized Service Health mostra com mais detalhes incidentes que afetam projetos do Google Cloud
- Alertas personalizados
- Dados de API
- Logs
A verificação de status por conta segue o fluxo de acessar a conta do Google Cloud e conferir as informações

Estrutura de status por produto e localidade

O painel permite verificar o status por produto dividido pelo eixo de localidade
- Americas
- Europe
- Asia Pacific
- Middle East
- Africa
- Multi-regions
- Non-regional
Multi-regions são localidades de serviço gerenciadas pelo Google para redundância e distribuição entre várias regiões dentro de uma área geográfica ampla
Non-regional indica o status de serviços distribuídos globalmente, não de uma localidade específica
- Atualizações nessa área indicam problemas no serviço correspondente
- Não significam uma falha de toda a plataforma afetando todas as regiões

Indicação de status e serviços cobertos

A legenda de status inclui Available e Multiple regions affected
A tabela de status inclui vários produtos do Google Cloud
- Google Compute Engine
- Google Kubernetes Engine
- Google Cloud Storage
- Google BigQuery
- Cloud Run
- Cloud SQL
- APIs e serviços relacionados ao Vertex AI
- IAM, VPC, Cloud Logging, Cloud Monitoring etc.
Cada produto é organizado de modo que o status por localidade possa ser verificado junto

Histórico de incidentes e acesso a dados

O histórico de incidentes pode ser visto em View incident history
Os dados de status são fornecidos em vários formatos
Incidentes relacionados a Google Security Products devem ser verificados em uma página de status separada
Incidentes relacionados ao Looker original também devem ser verificados em uma página de status separada

1 comentários

GN⁺ 2025-06-13

Opiniões no Hacker News

Parece que o Chemist, um serviço central do Google, caiu
"Chemist checks the project status, activation status, abuse status, billing status, service status, location restrictions, VPC Service Controls, SuperQuota, and other policies."
Isso explica erros como "visibility check (of the API) failed" e "cannot load policy", além do impacto amplo nos serviços
Referência: https://cloud.google.com/service-infrastructure/docs/service...
Além disso, o Google afirmou que "(Google Cloud) is down due to Identity and Access Management Service Issue"
- Não foi só o GCP; vários serviços de internet também caíram
  É possível que esse serviço Chemist tenha sido especialmente afetado por dependências externas, e que a falha tenha se propagado até serviços internos de rede do GCP
- Estou usando retransmissão via Expo para notificações e, nesse contexto do Google, fico me perguntando se o FCM também pode ter sido afetado junto
Muitos erros no Claude Sonnet 4 (Cursor) e no Gemini Pro
Não, agora parece que vou ter que voltar a usar o cérebro e escrever 100% do código sozinho, como um homem das cavernas de dezembro de 2024
- O mesmo problema aparece no AI Studio: Failed to generate content: user has exceeded quota. Please try again later.
- Eu estava testando upload de arquivos no Cloud Storage, então parece uma boa hora para dar uma caminhada
- Também há erros no modo Auto Agent do Cursor
- Desenvolvedores antes de 12 de junho de 2025: "AI? Hmpf, é só um monte de alucinação. Nunca vai me substituir!"
  Desenvolvedores durante a pane do GCP em 12 de junho de 2025: "O quê, sem IA?! Acham que eu sou escravo?!"
- O openrouter.ai também está inacessível
A Cloudflare também caiu. Segundo https://www.cloudflarestatus.com:
"Update - We are seeing a number of services suffer intermittent failures. We are continuing to investigate this and we will update this list as we assess the impact on a per-service level."
Os serviços afetados são Access, WARP, Durable Objects baseados em SQLite, Workers KV, Realtime, Workers AI, Stream e partes do painel da Cloudflare
12 de junho de 2025, 18:48 UTC
Adicional: https://news.ycombinator.com/item?id=44261064
- Se a Cloudflare usa o GCP como dependência central, isso parece um WTF bem sério
Às 18:43 UTC, parecia que quase tudo tinha caído: https://downdetector.com/
- Sim. Acho que os gráficos desse serviço provavelmente eram resultados detectados dentro do GCP
  Durante uma ligação com uma pessoa do Google, alguém disse que "a AWS também caiu" e, antes de eu verificar diretamente a disponibilidade da AWS, acabei falando à toa que "poderia ser um ataque BGP". Que vergonha
- É interessante porque eu não esperava que uma pane do Google afetasse até AWS ou Microsoft 365
- Talvez a lógica de detecção esteja rodando no Google Cloud /s
- Em incidentes assim, o Downdetector divulga informações erradas 100% das vezes
A página de status está verde, mas os relatos de instabilidade continuam aparecendo: https://downdetector.com/status/google-cloud/
- Se for assim, não sei para que manter uma página de status
  Também houve relatos de uma organização com mais de 100 mil usuários que não conseguia usar o Google Meet. Se as empresas não vão atualizar a página de status, é melhor nem ter uma
  https://www.google.com/appsstatus/dashboard/
  https://status.cloud.google.com/index.html
  Atualização: menos de 1 minuto depois de eu publicar isto, a página de status do GCP foi atualizada, e Cloud Data Fusion, Cloud Memorystore, Cloud Shell, Cloud Workstations, Google Cloud Bigtable, Google Cloud Console, Google Cloud Dataproc, Google Cloud Storage, Identity and Access Management, Identity Platform, Memorystore for Memcached, Memorystore for Redis, Memorystore for Redis Cluster e Vertex AI Search aparecem como serviços afetados
- O link do incidente está aqui: https://status.cloud.google.com/incidents/ow5i3PPK96RduMcb1S...
- Não entendo por que as empresas não conseguem admitir uma falha de forma honesta. Assim não passamos uma hora achando que é um problema interno e dando voltas
  Está literalmente nas mãos de Deus
  $ prod
  Fetching cluster endpoint and auth data.
  ERROR: (gcloud.container.clusters.get-credentials) ResponseError: code=503, message=Visibility check was unavailable. Please retry the request and contact support if the problem persists
- Em uma empresa remota com centenas de pessoas, o acesso ao Google Meetings está falhando em mais de 90% dos casos. Ao entrar em uma reunião, simplesmente dá 504
- Agora foi atualizado, e aparecem Console, Dataproc, GCS, IAM e Identity Platform como afetados: https://status.cloud.google.com/incidents/ow5i3PPK96RduMcb1S...
É estranho que até as mensagens RCS tenham caído por causa desta falha. Isso mostra como a tecnologia ou o desenho da infraestrutura é frágil
- RCS não é, na prática, só mensagens instantâneas? Não sei por que seria surpreendente cair
- Então era por isso que hoje eu não recebi a foto do cachorro dos meus pais
- Caramba, então foi por isso que meu chat RCS falhou mais cedo?!
A autenticação do Firebase caiu e está afetando muitos apps. Também há uma enxurrada de confirmações iguais em grupos do Discord e do Slack
É meio decepcionante que a página de status tenha ficado quase 30 minutos sem nada: https://status.firebase.google.com/
- Acabou de ser atualizada. Provavelmente foi afetada pela própria falha deles
A falha da Cloudflare também acabou de ser atualizada
"Cloudflare’s critical Workers KV service went offline due to an outage of a 3rd party service that is a key dependency. As a result, certain Cloudflare products that rely on KV service to store and disseminate information"
- Esse serviço de terceiros é o GCP?
Fico curioso se alguém conhece um bom dashboard para verificar uma anomalia de roteamento BGP como a que parece ser este caso
Estou fuçando agora em https://radar.cloudflare.com/routing, mas ele não mostra de fato quais rotas vazaram
Seria bom receber recomendações de boas ferramentas
- Acho que nunca tinha visto o CF Radar, mas é bem legal
  Também existem outras ferramentas. Só que algumas parecem estar com problemas, talvez por causa da falha atual
  https://atlas.ripe.net/probes/public
  https://www.ihr.live/en/global-report
  https://www.ihr.live/en/network
  https://bgp.he.net/
  https://ioda.inetintel.cc.gatech.edu/dashboard/asn
- O lugar que vejo primeiro por padrão é este: https://bgp.tools/
  Mas fiquei curioso: por que você achou que esta falha tinha relação com BGP da internet?
- Também sou iniciante nessa área, mas fico me perguntando se é normal a quantidade de endereços na seção "Announced IP Address Space" dar um salto tão grande assim
- É um ataque BGP?
Ainda bem que o HN é hospedado em um único servidor bare-metal, sem essas coisas inchadas todas
- Lembro de várias vezes em que o HN também caiu

Falha no GCP

Status atual do Google Cloud

Verificação de falhas por projeto

Estrutura de status por produto e localidade

Indicação de status e serviços cobertos

Histórico de incidentes e acesso a dados

Leituras relacionadas

1 comentários

Opiniões no Hacker News