- O Postman enfrentou uma interrupção temporária de serviço devido a uma questão global de nuvem
- O incidente foi causado por problemas no provedor de nuvem, gerando erros funcionais e indisponibilidade intermitente para muitos usuários
- A equipe de engenharia realizou a recuperação em tempo real, com o serviço se recuperando gradualmente
- Falhas em parte da função de busca e problemas de cross-dependency foram monitorados e resolvidos continuamente
- Atualmente, o incidente foi resolvido e o serviço foi restaurado ao normal, com monitoramento adicional de estabilidade em andamento
Linha do tempo e processo de recuperação da indisponibilidade do Postman
Identificação e impacto da falha (Oct 20, 05:39 ~ 05:52 PDT)
- O aumento na taxa de erros no Postman causou problemas funcionais
- A causa dessa indisponibilidade foi uma ocorrência crítica do provedor de serviço em nuvem
- A equipe do Postman respondeu em colaboração com o fornecedor de nuvem para uma normalização rápida
Recuperação parcial e monitoramento do serviço (Oct 20, 05:56 ~ 17:17 PDT)
- Foi observada recuperação em alguns sistemas
- Houve monitoramento contínuo de desempenho em vários serviços enquanto o trabalho de restauração completa continuou
- A recuperação da maioria das funcionalidades foi confirmada, com foco em evitar novas falhas por meio de monitoramento contínuo
Recuperação completa e normalização do serviço (Oct 20, 19:00 ~ 20:51 PDT)
- Embora ainda houvessem problemas intermitentes em alguns serviços, a maioria dos sistemas se recuperou de forma estável
- Foram resolvidos progressivamente também os erros de cross-dependency e os problemas relacionados à função de busca
- Após a resolução de todos os problemas e a conclusão da restauração total do serviço, houve monitoramento adicional para garantir a estabilidade
Resumo e implicações
- O Postman tem alta dependência de ambiente em nuvem, o que significa que é impactado diretamente por interrupções globais
- Isso destaca a necessidade de preparar ferramentas similares ou serviços com aparência de operação local para lidar com falhas de infraestrutura em nuvem
- Durante uma indisponibilidade, monitoramento e comunicação em tempo real são críticos para a manutenção e confiança dos clientes
- No processo de recuperação gradual do serviço, a resposta rápida da equipe e comunicados transparentes são fundamentais
- Reforça-se a necessidade de estabelecer um sistema de monitoramento para confirmar se todos os serviços estão operando normalmente
1 comentários
Opinião do Hacker News
yapi(https://github.com/jamierpond/yapi), que pode ser usado assim: Exemplo de arquivo YAML (incluindo schema, url, method, path e forma de declarar query params), e basta executar apenasyapipara encontrar facilmente o arquivo de configuração usando fzf.