2 pontos por GN⁺ 2023-07-21 | 1 comentários | Compartilhar no WhatsApp
  • Experiência de 3 dias de interrupção de serviço causada por uma indisponibilidade na Fly.io
  • Os usuários não conseguiam excluir máquinas, implantar apps nem reiniciar instâncias.
  • O problema afetou vários usuários e seus apps, incluindo bancos de dados.
  • Alguns usuários conseguiram contornar o problema fazendo scale up e criando novas máquinas.
  • A falta de comunicação e de atualizações por parte da Fly.io deixou os usuários confusos e fez com que perdessem a confiança na plataforma.
  • O problema acabou sendo resolvido, mas os usuários não receberam respostas e continuaram com preocupações e dúvidas.
  • O incidente reforça a importância de uma comunicação confiável e transparente durante períodos de indisponibilidade.

1 comentários

 
GN⁺ 2023-07-21
Comentários do Hacker News
  • O cluster de Postgres da Fly.io ficou fora do ar por 3 dias.
  • A interrupção foi causada porque um único host na região seed caiu e não voltou a ficar online corretamente.
  • Aplicativos executando várias instâncias puderam continuar funcionando, mas aplicativos de instância única naquele host ficaram inacessíveis.
  • A Fly.io pediu desculpas pela falta de comunicação durante a interrupção e reconheceu a necessidade de melhorar o processo de comunicação para falhas de host único.
  • Alguns usuários expressaram insatisfação com a confiabilidade e o suporte da Fly.io, mencionando interrupções frequentes, falta de resposta e ausência de recursos e documentação.
  • Houve discussão sobre um desalinhamento de expectativas entre o que a Fly.io oferece e as necessidades do mercado, além da necessidade de serviços com persistência de dados.
  • Alguns usuários compararam a queda da Fly.io com o declínio da Heroku, expressando decepção e preocupação.
  • De modo geral, há esperança de que a Fly.io consiga recuperar a confiabilidade antes de ficar instável, no pior cenário, como aconteceu com a Heroku.