2 pontos por GN⁺ 2025-06-13 | 1 comentários | Compartilhar no WhatsApp
  • Ocorreu uma indisponibilidade de serviço no Google Cloud Platform
  • Erros persistem no serviço Vertex AI Online Prediction
  • Houve uma situação em que ficou difícil verificar o status de serviços personalizados
  • Foram relatados comportamentos anormais de serviço afetando usuários em várias regiões
  • Foi levantada a necessidade de normalização e identificação da causa específica

Visão geral da falha

  • Foi relatada uma indisponibilidade de uso dos serviços no Google Cloud Platform
  • Em especial, foi confirmada a ocorrência de erros contínuos em funções como o Vertex AI Online Prediction

Escopo do impacto e situação atual

  • O problema também está afetando a verificação do status de serviços como o Personalized Service Health
  • Usuários de diversas regiões estão enfrentando dificuldades para acessar ou utilizar os serviços

Conclusão e perspectivas

  • Ganha destaque a necessidade de normalização do serviço e de análise da causa da falha
  • Há expectativa por novos comunicados sobre recuperação e medidas concretas

1 comentários

 
GN⁺ 2025-06-13
Comentários no Hacker News
  • Explicação da situação em que o Chemist, um serviço central interno do Google, caiu. O Chemist fornece várias verificações de políticas, como status do projeto, estado de ativação, abuso, status de cobrança, restrições de localização, VPC Service Controls, SuperQuota etc. Por isso, fica mais fácil entender por que apareceram várias mensagens de erro como “visibility check (of the API) failed” ou “cannot load policy”. Também foi compartilhado um link para a documentação específica de verificação de políticas. EDIT: o Google anunciou falha no Google Cloud devido a um “Identity and Access Management Service Issue”
    • Eu uso o Expo para encaminhamento de notificações e fiquei curioso se o FCM também foi afetado por essa falha do Google
    • Vários serviços de internet caíram ao mesmo tempo; não foi um problema só do GCP. Suspeita-se que o serviço Chemist tenha sofrido impacto especialmente forte vindo de fora, o que acabou propagando a falha até a rede interna do GCP
  • Muitos erros acontecendo ao usar Claude Sonnet 4 (Cursor) e Gemini Pro; lamentam a situação de ter que voltar para dezembro de 2024 e escrever 100% do código à mão, como homens das cavernas
    • Eu também passei pelo mesmo problema no AI Studio, com a mensagem “falha ao gerar conteúdo por exceder a cota do usuário”
    • Eu estava testando upload de arquivos no Cloud Storage, mas achei que este era um bom momento para sair para caminhar
    • Erros parecidos também ocorreram no modo Auto Agent do Cursor
    • Piada: desenvolvedor antes de 12 de junho de 2025: “IA? Só uma máquina de alucinações, não pode me substituir!” / desenvolvedor durante a falha de 12 de junho de 2025: “Sem IA eu viro um escravo?”
    • Dica de que ainda funciona se mudar para o modo Auto
  • A Cloudflare também estava com falha. Em Cloudflare status, foi informado que vários serviços (Access, WARP, Durable Objects (baseado em SQL), Workers KV, Realtime, Workers AI, Stream e parte do dashboard da Cloudflare) apresentavam falhas intermitentes, com avaliação de impacto sendo atualizada continuamente. Também compartilharam a discussão relacionada no Hacker News
    • Se a Cloudflare depende do GCP, então esta falha é algo gigantesco
    • Houve comentário de que o link estava funcionando de forma estranha, com menção de que por um momento apareceu vazio
  • Às 18:43 UTC, praticamente todos os serviços estavam fora do ar; foi compartilhado o link do downdetector
    • Ao que parece, os gráficos desse serviço também coletavam dados internamente no GCP. Durante uma ligação com alguém do Google, alguém comentou que a AWS também tinha caído, e eu me arrependo de ter chutado “será que foi um ataque BGP?” sem verificar
    • “Todos os serviços são serviços do Google?”
    • Houve comentário de que não esperavam que uma falha do Google afetasse também a AWS ou o Microsoft 365
    • Em eventos grandes assim, o Downdetector seria uma fonte 100% de informação falsa
    • Piada de que talvez essa lógica de detecção também rode no Google Cloud
  • As páginas de status mostravam tudo normal (em verde), mas na prática havia muitos relatos de falha, junto com o monitor de falhas do Google Cloud
    • Questionamento sobre o motivo de existência das páginas de status: se mais de 100 mil usuários relatam não conseguir usar o Google Meet e as grandes empresas não refletem a situação real na página, então ela perde o sentido. Também foram compartilhados Google Apps Status e GCP Status Page. EDIT: um minuto após a publicação, a página de status do GCP foi atualizada e passou a mostrar falhas em vários serviços como Cloud Data Fusion, Cloud Memorystore e Cloud Shell
    • Link do comunicado oficial desta falha aqui
    • Atualização do impacto atual em console, dataproc, GCS, IAM, Identity Platform etc. aqui
    • Na nossa empresa, com centenas de pessoas em trabalho remoto, mais de 90% dos acessos ao Google Meetings retornaram erro 504
  • A falha da Cloudflare também acabou de ser atualizada: serviços essenciais como Workers KV ficaram offline por causa de falha em serviço de terceiros, impactando diretamente a entrega de informações dos produtos da Cloudflare que dependiam disso
  • O Firebase Auth também caiu e afetou muitos apps. Em comunidades no Discord e no Slack, muitos usuários relataram estar passando por isso ao mesmo tempo. Houve frustração porque por quase 30 minutos não apareceu nada na página de status, com link para Firebase Status
    • Só agora a página de status foi atualizada; talvez a própria falha interna também tenha atrasado essa atualização
  • Com esta falha, as mensagens RCS também caíram, deixando bem evidente que o projeto técnico ou a arquitetura de infraestrutura era frágil
    • RCS não é só mais um mensageiro instantâneo? Então a falha não surpreende
    • Então é por isso que hoje eu não recebi as fotos do cachorro dos meus pais
    • Surpresa por finalmente descobrir a causa de uma falha no chat RCS que eu tive mais cedo
    • Piada de que deveriam ter usado Erlang
  • Procurando um bom dashboard para verificar anomalias de roteamento BGP. Estavam olhando o Cloudflare Radar Routing, mas como ele não mostrava claramente vazamentos de rota, pediram recomendações adicionais
    • Reação de quem estava vendo o Cloudflare Radar pela primeira vez e achou o serviço incrível, embora tenha comentado que, com a falha atual, provavelmente alguns dashboards também teriam problemas. Foram recomendados, por exemplo, RIPE Atlas, IHR Global Report, IHR Network, BGP He.net, IODA dashboard
    • O que eu uso por padrão é bgp.tools, mas fiquei curioso sobre por que acham que desta vez o problema foi BGP
    • Também sou novato e queria saber se um salto repentino grande na seção “Announced IP Address Space” é algo normal mesmo em tempos comuns
    • Levantaram a suspeita de ataque BGP
  • Comentário bem-humorado de que ainda bem que o Hacker News roda em um único servidor bare metal, sem depender dessa infraestrutura toda complicada