Sobre a interrupção de serviço do Tailscale.com em 7 de março de 2024
- Em 7 de março de 2024, o Tailscale.com ficou inacessível por cerca de 90 minutos devido ao vencimento de um certificado TLS.
- O problema foi identificado e resolvido rapidamente, afetando principalmente materiais de marketing e a documentação.
- Uma interrupção inesperada é um problema, e eles querem explicar a causa, o impacto e as medidas para evitar recorrência.
O que aconteceu
- Em dezembro de 2023, foi realizada uma grande reformulação do site, incluindo a migração para um novo provedor de hospedagem.
- Como o provedor de hospedagem não oferecia suporte a IPv6 por padrão, foi operado um proxy separado para lidar com requisições IPv6.
- Essa configuração foi considerada uma "configuração incorreta" pelo provedor de hospedagem, e embora tenha havido um aviso, não se percebeu que isso impediria a renovação automática do certificado.
- Havia um probe para verificar o vencimento do certificado, mas como ele verificava apenas via IPv6, acabou validando somente o certificado válido gerenciado pelo proxy e não detectou o vencimento iminente.
Impacto
- Como a maioria das operações do Tailscale não exige acesso ao site principal, muitos usuários não tiveram prejuízo no uso normal.
- Documentação, blog e outros materiais de referência ficaram inacessíveis; o console administrativo e as páginas de configuração não foram afetados, mas usuários que não soubessem como acessá-los diretamente poderiam achar que estavam offline.
- O script de instalação rápida ficou inacessível, o que atrapalhou algumas instalações, incluindo instalações automatizadas.
- O domínio que fornece os pacotes do Tailscale permaneceu acessível, e o impacto sobre a forma de obtenção via mecanismo
go get do Go foi minimizado graças ao cache.
Medidas para resolver
- Depois de identificar o problema, o registro AAAA "extra" foi removido temporariamente e o certificado correspondente foi renovado manualmente.
- O registro foi restaurado para manter a acessibilidade do site e dos serviços via IPv6.
- No curto prazo, o plano é configurar vários lembretes redundantes no calendário e horários definidos para renovação manual.
- A infraestrutura de probes será atualizada para verificar separadamente os endpoints IPv4 e IPv6.
- A expectativa é dar suporte mais direto a IPv6 na infraestrutura do site, tornando o proxy desnecessário.
- Graças ao design do Tailscale, a maioria dos usuários não foi afetada por essa interrupção na maioria dos usos.
Opinião do GN⁺
- O caso de indisponibilidade do Tailscale destaca a importância da gestão de infraestrutura de TI. Em especial, mostra como tarefas básicas de manutenção, como a renovação de certificados, são cruciais.
- Esse incidente sugere a importância do suporte a IPv6 e, ao mesmo tempo, a necessidade de abordagens criativas para resolver problemas de compatibilidade com a infraestrutura existente.
- Outros serviços com funcionalidades semelhantes incluem Cloudflare e Let's Encrypt, que oferecem renovação automática de certificados para evitar problemas semelhantes.
- Ao adotar tecnologia, é preciso considerar a compatibilidade da infraestrutura, a possibilidade de automação e a facilidade de manutenção. Casos como esse mostram por que é necessário avaliar cuidadosamente os prós e contras na escolha de tecnologias.
- Este artigo pode ajudar usuários e administradores a se conscientizarem sobre tarefas básicas de administração de sistemas, como o vencimento de certificados.
1 comentários
Comentários no Hacker News
Problema de certificado expirando
Problema causado pela expiração de certificado
Problema de ligação entre o site de marketing e o app
Insatisfação com a política de preços
Dúvida sobre o provedor do site
Elogio à cultura de engenharia
Dúvida sobre a necessidade de terminação TLS
Menção satírica a alertas de calendário
Preocupação com segurança
Sugestão sobre monitoramento de infraestrutura e renovação automática