1 pontos por GN⁺ 2024-11-27 | 1 comentários | Compartilhar no WhatsApp
  • Esta página fornece atualizações sobre incidentes globais. Falhas rotineiras de hardware ou incidentes limitados de infraestrutura não estão incluídos.
  • Para ver todos os incidentes que podem afetar apps personalizados, é possível consultar a página de status personalizada no painel da organização Fly.

Incidentes anteriores

27 de novembro de 2024

  • Nenhum incidente relatado

26 de novembro de 2024

  • Latência de API e erros de timeout: resolvido. O desempenho da Machines API e da GraphQL API voltou ao normal.
  • Degradação de conectividade: máquinas de alguns clientes foram limitadas devido à implantação completa da cota de CPU. Isso causou problemas de rede, e a mudança foi temporariamente revertida para corrigir o problema.
  • Degradação de desempenho da API: resolvido. O sistema foi escalado e correções foram aplicadas à API, com operação normalizada.

25 de novembro de 2024

  • Degradação de desempenho da API: o problema foi identificado e está sendo corrigido. O desempenho da Machines API e do proxy foi degradado.
  • Recuperação do cluster Corrosion: os processos de recuperação e reseeding estão em execução, e ainda há trabalho em andamento em alguns hosts.

24 de novembro de 2024

  • Nenhum incidente relatado

23 de novembro de 2024

  • Nenhum incidente relatado

22 de novembro de 2024

  • Busca de logs indisponível: resolvido. Afetou o painel de busca de logs do Fly Metrics e os logs históricos dos apps.

21 de novembro de 2024

  • Manutenção emergencial de rede: concluída. O provedor de rede realizou a substituição de um switch.

20 de novembro de 2024

  • Nenhum incidente relatado

19 de novembro de 2024

  • Busca de logs indisponível: resolvido. Afetou o painel de busca de logs do Fly Metrics e os logs históricos dos apps.

18 de novembro de 2024

  • Nenhum incidente relatado

17 de novembro de 2024

  • Nenhum incidente relatado

16 de novembro de 2024

  • Nenhum incidente relatado

15 de novembro de 2024

  • Nenhum incidente relatado

14 de novembro de 2024

  • Degradação de conectividade IPv6 em IAD: resolvido. O problema foi solucionado em colaboração com o provedor upstream.

1 comentários

 
GN⁺ 2024-11-27
Comentários no Hacker News
  • Um usuário mencionou que um site hospedado na Fly.io ficou fora do ar por 5 minutos, mas desde então está operando de forma estável. Ele usa um serviço de monitoramento gratuito que verifica a cada 5 minutos.

  • A Fly.io publicou um postmortem, explicando que em 2016 usava um servidor TLS centralizado chamado Consul, mas o substituiu por Corrosion em 2020. Em outubro de 2024, a chave de assinatura raiz do Consul expirou, interrompendo as conexões, e a recuperação foi feita com a implantação de novos certificados SSL.

  • Eles descobriram que, devido a problemas na infraestrutura da Fly.io, as chaves TLS de outros serviços também expiraram, e uma ferramenta de logs acabou lançando um ataque DDoS contra o provedor de rede. Foi necessário muito esforço para resolver vários problemas.

  • Houve quem questionasse a confiabilidade da Fly.io, dizendo que, se uma plataforma de nuvem não oferece confiabilidade, talvez seja melhor alugar um servidor virtual.

  • A API da Fly.io ainda está inacessível, e usuários dizem que não conseguem fazer deploy nem acessar seus bancos de dados. Atualizações mais precisas podem ser acompanhadas pela página da comunidade.

  • Ao comparar pessoalmente Fly.io e Railway.com, um usuário disse que a Railway foi melhor e teve um suporte excelente. A Fly.io não respondeu a uma solicitação sobre exclusão de dados.

  • Algumas pessoas relataram ter passado por grandes interrupções na Fly.io várias vezes e enfatizaram que a estabilidade do serviço deve ser a prioridade máxima.

  • A Turso também está enfrentando problemas relacionados à falha da Fly.io, e o CEO confirmou isso no Discord.

  • Houve questionamentos sobre os preços baixos da Fly.io, e a documentação técnica explica que as instâncias ficam presas a um único servidor físico, de modo que, se o servidor cair, é preciso restaurar a partir de um backup.

  • Foi mencionado que interrupções tendem a acontecer em semanas de grandes feriados, e que MS 365/Teams/Exchange também foram afetados. Sugeriu-se interromper mudanças durante grandes feriados.

  • Também foi lembrado que a série de falhas no início de 2023 envolveu problemas relacionados ao Corrosion.