1 pontos por GN⁺ 2023-12-04 | 1 comentários | Compartilhar no WhatsApp

Problemas e resposta da Google Cloud Platform

  • A Railway opera sua plataforma de desenvolvimento de aplicações usando o Compute Engine da Google Cloud Platform (GCP).
  • Algumas máquinas deixaram de responder, causando uma indisponibilidade no serviço que durou cerca de 10 minutos.
  • O problema foi resolvido, todas as cargas de trabalho foram migradas com sucesso e o serviço foi restaurado.

Relação difícil com a Google Cloud

  • A Railway enfrentou vários problemas com a Google Cloud nos últimos 18 meses.
  • Como os problemas de rede persistiam, a empresa construiu sua própria stack de rede para resolvê-los.
  • Quando o Google limitou a cota do registro, a empresa resolveu isso criando seu próprio produto de registro.
  • Decepcionada com o serviço de suporte do Google, a Railway discutiu a resolução dos problemas com vice-presidentes da empresa.
  • O Google alterou os termos de serviço, aumentando os custos em 20%, e a Railway ainda aguarda uma solução para isso.
  • A Railway planeja encerrar o uso dos serviços da Google Cloud e migrar para suas próprias instâncias bare metal.

Retrospectiva do incidente

  • O Google reiniciou as máquinas, fazendo com que os servidores ficassem offline.
  • Havia um sistema automático de recuperação de falhas, mas alguns servidores não se recuperaram, então foi necessário realizar a recuperação manualmente.
  • Suspeita-se de um problema causado pela migração ao vivo automática da Google Cloud; a Railway tentou entrar em contato com o Google, mas não obteve resposta.
  • A análise dos logs do console serial indica que, no guest do GCP, em casos raros, pode ocorrer um soft lock sob pressão de recursos durante a transferência de memória do espaço do usuário para o kernel.

Conclusão para os usuários

  • Durante a recuperação manual de falhas, houve cerca de 10 minutos de indisponibilidade por host.
  • Para usuários que executam cargas de trabalho com múltiplos serviços, a indisponibilidade pode ter sido maior.
  • A Railway pede desculpas pelo transtorno causado aos usuários e planeja migrar para seu próprio bare metal para oferecer maior confiabilidade.

Opinião do GN⁺

O ponto mais importante deste artigo é o impacto que os problemas técnicos da Google Cloud Platform e as falhas no suporte ao cliente têm sobre os usuários. Os problemas enfrentados pela Railway destacam a importância da confiabilidade e do suporte por parte de provedores de serviços em nuvem, além de mostrar a relevância de construir infraestrutura própria para resolver esse tipo de situação. O texto ajuda a compreender a complexidade e os riscos potenciais da computação em nuvem, oferecendo uma visão útil sobre problemas técnicos e formas de resposta.

1 comentários

 
GN⁺ 2023-12-04
Comentários do Hacker News
  • Experiência de uma pequena empresa de software

    • Como uma empresa de software com 2 pessoas, enfrentaram vários problemas com o Google.
    • A maioria dos problemas estava relacionada ao Google Adwords.
    • Se o Google não oferece suporte adequado ao autor original, que paga valores altos, há pouca esperança para pequenos negócios.
  • Opinião sobre as mudanças no GCP

    • Alguns anos atrás, o GCP era uma opção melhor em custo-benefício do que a AWS.
    • Na época, o suporte do GCP era excelente, e a experiência inicial com tickets também foi impressionante.
    • As interações com a equipe de vendas também eram boas, mas agora a AWS alcançou o GCP em custo-benefício e está à frente em serviços gerenciados.
    • A experiência com o suporte do GCP piorou de forma significativa, e ele falhou em reconhecer problemas de rede.
    • Houve muito investimento no GCP, mas a situação atual é decepcionante, e estão tentando reduzir os gastos.
  • Comparação de confiabilidade entre GCP e AWS

    • Mesmo sendo raro que instâncias de computação caiam no GCP, ele ainda recebe críticas.
    • Na AWS, houve experiências frequentes de instâncias sendo interrompidas ou simplesmente desaparecendo.
    • Com base em experiência pessoal e na documentação da AWS, afirma-se que os componentes básicos da AWS são menos confiáveis do que os do GCP.
  • Opinião sobre problemas dos provedores de nuvem

    • Todos os provedores de nuvem têm problemas.
    • Na AWS, vários problemas foram encontrados e reportados, e a equipe de suporte fez perder tempo.
    • Fora os serviços centrais (EC2, EBS, S3), há relutância em usar o restante.
  • Experiência com o suporte do Google Cloud

    • O serviço de suporte do Google Cloud não foi impressionante.
    • Na AWS, a experiência com suporte sempre foi boa.
    • Se houver uma interação positiva no Google Cloud, recomenda-se destacar isso e fornecer feedback positivo.
  • Experiência com problemas de funcionalidades do GCP

    • Recursos corporativos do GCP não funcionavam corretamente e, ao tentar corrigi-los, causavam downtime.
    • Representantes do GCP tentavam não reconhecer o problema, lembrando sobre o NDA.
  • Experiência com limites não documentados do GCP

    • Em relação ao Cloud Run, houve eventos de escalonamento inexplicáveis com base no uso de CPU e em requisições simultâneas.
    • Pelo suporte premium, foi informado que havia critérios adicionais, mas sem explicações detalhadas.
  • Solução para problemas de rede no Google Cloud

    • Houve problemas persistentes de rede em produtos do Google Cloud.
    • O problema foi resolvido com a construção de uma pilha de rede própria.
    • Levanta-se a dúvida de como um overlay UDP/Wireguard pode ser mais confiável quando a rede base é instável.
  • Opinião sobre a confiabilidade do Google Cloud

    • Problemas de confiabilidade no início da computação em nuvem são compreensíveis, mas decepcionar grandes clientes em 2023 não é uma boa situação.
    • Há curiosidade sobre outras pessoas terem tido experiências parecidas ou se o autor apenas teve azar.
  • Confusão pessoal sobre os problemas no GCP

    • Há confusão sobre o que virtualização aninhada tem a ver com o problema.
    • A menção a instruções MMIO não é compreendida.
    • Parece que o autor está frustrado com o incidente recente e se esforçando para encontrar uma solução.