- Esta página fornece atualizações sobre incidentes globais. Falhas rotineiras de hardware ou incidentes limitados de infraestrutura não estão incluídos.
- Para ver todos os incidentes que podem afetar apps personalizados, é possível consultar a página de status personalizada no painel da organização Fly.
Incidentes anteriores
27 de novembro de 2024
- Nenhum incidente relatado
26 de novembro de 2024
- Latência de API e erros de timeout: resolvido. O desempenho da Machines API e da GraphQL API voltou ao normal.
- Degradação de conectividade: máquinas de alguns clientes foram limitadas devido à implantação completa da cota de CPU. Isso causou problemas de rede, e a mudança foi temporariamente revertida para corrigir o problema.
- Degradação de desempenho da API: resolvido. O sistema foi escalado e correções foram aplicadas à API, com operação normalizada.
25 de novembro de 2024
- Degradação de desempenho da API: o problema foi identificado e está sendo corrigido. O desempenho da Machines API e do proxy foi degradado.
- Recuperação do cluster Corrosion: os processos de recuperação e reseeding estão em execução, e ainda há trabalho em andamento em alguns hosts.
24 de novembro de 2024
- Nenhum incidente relatado
23 de novembro de 2024
- Nenhum incidente relatado
22 de novembro de 2024
- Busca de logs indisponível: resolvido. Afetou o painel de busca de logs do Fly Metrics e os logs históricos dos apps.
21 de novembro de 2024
- Manutenção emergencial de rede: concluída. O provedor de rede realizou a substituição de um switch.
20 de novembro de 2024
- Nenhum incidente relatado
19 de novembro de 2024
- Busca de logs indisponível: resolvido. Afetou o painel de busca de logs do Fly Metrics e os logs históricos dos apps.
18 de novembro de 2024
- Nenhum incidente relatado
17 de novembro de 2024
- Nenhum incidente relatado
16 de novembro de 2024
- Nenhum incidente relatado
15 de novembro de 2024
- Nenhum incidente relatado
14 de novembro de 2024
- Degradação de conectividade IPv6 em IAD: resolvido. O problema foi solucionado em colaboração com o provedor upstream.
1 comentários
Comentários no Hacker News
Um usuário mencionou que um site hospedado na Fly.io ficou fora do ar por 5 minutos, mas desde então está operando de forma estável. Ele usa um serviço de monitoramento gratuito que verifica a cada 5 minutos.
A Fly.io publicou um postmortem, explicando que em 2016 usava um servidor TLS centralizado chamado Consul, mas o substituiu por Corrosion em 2020. Em outubro de 2024, a chave de assinatura raiz do Consul expirou, interrompendo as conexões, e a recuperação foi feita com a implantação de novos certificados SSL.
Eles descobriram que, devido a problemas na infraestrutura da Fly.io, as chaves TLS de outros serviços também expiraram, e uma ferramenta de logs acabou lançando um ataque DDoS contra o provedor de rede. Foi necessário muito esforço para resolver vários problemas.
Houve quem questionasse a confiabilidade da Fly.io, dizendo que, se uma plataforma de nuvem não oferece confiabilidade, talvez seja melhor alugar um servidor virtual.
A API da Fly.io ainda está inacessível, e usuários dizem que não conseguem fazer deploy nem acessar seus bancos de dados. Atualizações mais precisas podem ser acompanhadas pela página da comunidade.
Ao comparar pessoalmente Fly.io e Railway.com, um usuário disse que a Railway foi melhor e teve um suporte excelente. A Fly.io não respondeu a uma solicitação sobre exclusão de dados.
Algumas pessoas relataram ter passado por grandes interrupções na Fly.io várias vezes e enfatizaram que a estabilidade do serviço deve ser a prioridade máxima.
A Turso também está enfrentando problemas relacionados à falha da Fly.io, e o CEO confirmou isso no Discord.
Houve questionamentos sobre os preços baixos da Fly.io, e a documentação técnica explica que as instâncias ficam presas a um único servidor físico, de modo que, se o servidor cair, é preciso restaurar a partir de um backup.
Foi mencionado que interrupções tendem a acontecer em semanas de grandes feriados, e que MS 365/Teams/Exchange também foram afetados. Sugeriu-se interromper mudanças durante grandes feriados.
Também foi lembrado que a série de falhas no início de 2023 envolveu problemas relacionados ao Corrosion.