Panorama dos incidentes no GCP
(blog.railway.app)Problemas e resposta da Google Cloud Platform
- A Railway opera sua plataforma de desenvolvimento de aplicações usando o Compute Engine da Google Cloud Platform (GCP).
- Algumas máquinas deixaram de responder, causando uma indisponibilidade no serviço que durou cerca de 10 minutos.
- O problema foi resolvido, todas as cargas de trabalho foram migradas com sucesso e o serviço foi restaurado.
Relação difícil com a Google Cloud
- A Railway enfrentou vários problemas com a Google Cloud nos últimos 18 meses.
- Como os problemas de rede persistiam, a empresa construiu sua própria stack de rede para resolvê-los.
- Quando o Google limitou a cota do registro, a empresa resolveu isso criando seu próprio produto de registro.
- Decepcionada com o serviço de suporte do Google, a Railway discutiu a resolução dos problemas com vice-presidentes da empresa.
- O Google alterou os termos de serviço, aumentando os custos em 20%, e a Railway ainda aguarda uma solução para isso.
- A Railway planeja encerrar o uso dos serviços da Google Cloud e migrar para suas próprias instâncias bare metal.
Retrospectiva do incidente
- O Google reiniciou as máquinas, fazendo com que os servidores ficassem offline.
- Havia um sistema automático de recuperação de falhas, mas alguns servidores não se recuperaram, então foi necessário realizar a recuperação manualmente.
- Suspeita-se de um problema causado pela migração ao vivo automática da Google Cloud; a Railway tentou entrar em contato com o Google, mas não obteve resposta.
- A análise dos logs do console serial indica que, no guest do GCP, em casos raros, pode ocorrer um soft lock sob pressão de recursos durante a transferência de memória do espaço do usuário para o kernel.
Conclusão para os usuários
- Durante a recuperação manual de falhas, houve cerca de 10 minutos de indisponibilidade por host.
- Para usuários que executam cargas de trabalho com múltiplos serviços, a indisponibilidade pode ter sido maior.
- A Railway pede desculpas pelo transtorno causado aos usuários e planeja migrar para seu próprio bare metal para oferecer maior confiabilidade.
Opinião do GN⁺
O ponto mais importante deste artigo é o impacto que os problemas técnicos da Google Cloud Platform e as falhas no suporte ao cliente têm sobre os usuários. Os problemas enfrentados pela Railway destacam a importância da confiabilidade e do suporte por parte de provedores de serviços em nuvem, além de mostrar a relevância de construir infraestrutura própria para resolver esse tipo de situação. O texto ajuda a compreender a complexidade e os riscos potenciais da computação em nuvem, oferecendo uma visão útil sobre problemas técnicos e formas de resposta.
1 comentários
Comentários do Hacker News
Experiência de uma pequena empresa de software
Opinião sobre as mudanças no GCP
Comparação de confiabilidade entre GCP e AWS
Opinião sobre problemas dos provedores de nuvem
Experiência com o suporte do Google Cloud
Experiência com problemas de funcionalidades do GCP
Experiência com limites não documentados do GCP
Solução para problemas de rede no Google Cloud
Opinião sobre a confiabilidade do Google Cloud
Confusão pessoal sobre os problemas no GCP