2 pontos por GN⁺ 2024-04-01 | 1 comentários | Compartilhar no WhatsApp

Sobre a interrupção de serviço do Tailscale.com em 7 de março de 2024

  • Em 7 de março de 2024, o Tailscale.com ficou inacessível por cerca de 90 minutos devido ao vencimento de um certificado TLS.
  • O problema foi identificado e resolvido rapidamente, afetando principalmente materiais de marketing e a documentação.
  • Uma interrupção inesperada é um problema, e eles querem explicar a causa, o impacto e as medidas para evitar recorrência.

O que aconteceu

  • Em dezembro de 2023, foi realizada uma grande reformulação do site, incluindo a migração para um novo provedor de hospedagem.
  • Como o provedor de hospedagem não oferecia suporte a IPv6 por padrão, foi operado um proxy separado para lidar com requisições IPv6.
  • Essa configuração foi considerada uma "configuração incorreta" pelo provedor de hospedagem, e embora tenha havido um aviso, não se percebeu que isso impediria a renovação automática do certificado.
  • Havia um probe para verificar o vencimento do certificado, mas como ele verificava apenas via IPv6, acabou validando somente o certificado válido gerenciado pelo proxy e não detectou o vencimento iminente.

Impacto

  • Como a maioria das operações do Tailscale não exige acesso ao site principal, muitos usuários não tiveram prejuízo no uso normal.
  • Documentação, blog e outros materiais de referência ficaram inacessíveis; o console administrativo e as páginas de configuração não foram afetados, mas usuários que não soubessem como acessá-los diretamente poderiam achar que estavam offline.
  • O script de instalação rápida ficou inacessível, o que atrapalhou algumas instalações, incluindo instalações automatizadas.
  • O domínio que fornece os pacotes do Tailscale permaneceu acessível, e o impacto sobre a forma de obtenção via mecanismo go get do Go foi minimizado graças ao cache.

Medidas para resolver

  • Depois de identificar o problema, o registro AAAA "extra" foi removido temporariamente e o certificado correspondente foi renovado manualmente.
  • O registro foi restaurado para manter a acessibilidade do site e dos serviços via IPv6.
  • No curto prazo, o plano é configurar vários lembretes redundantes no calendário e horários definidos para renovação manual.
  • A infraestrutura de probes será atualizada para verificar separadamente os endpoints IPv4 e IPv6.
  • A expectativa é dar suporte mais direto a IPv6 na infraestrutura do site, tornando o proxy desnecessário.
  • Graças ao design do Tailscale, a maioria dos usuários não foi afetada por essa interrupção na maioria dos usos.

Opinião do GN⁺

  • O caso de indisponibilidade do Tailscale destaca a importância da gestão de infraestrutura de TI. Em especial, mostra como tarefas básicas de manutenção, como a renovação de certificados, são cruciais.
  • Esse incidente sugere a importância do suporte a IPv6 e, ao mesmo tempo, a necessidade de abordagens criativas para resolver problemas de compatibilidade com a infraestrutura existente.
  • Outros serviços com funcionalidades semelhantes incluem Cloudflare e Let's Encrypt, que oferecem renovação automática de certificados para evitar problemas semelhantes.
  • Ao adotar tecnologia, é preciso considerar a compatibilidade da infraestrutura, a possibilidade de automação e a facilidade de manutenção. Casos como esse mostram por que é necessário avaliar cuidadosamente os prós e contras na escolha de tecnologias.
  • Este artigo pode ajudar usuários e administradores a se conscientizarem sobre tarefas básicas de administração de sistemas, como o vencimento de certificados.

1 comentários

 
GN⁺ 2024-04-01
Comentários no Hacker News
  • Problema de certificado expirando

    Certificados expirando estão causando uma nova falha de DNS. A pessoa compartilha sua experiência de usar o Tailscale para trabalhar com segurança de qualquer lugar. Usa o Tailscale para acessar servidores on-premises e a configuração de produção na AWS, e consegue resolver problemas via SSH de outro local mesmo quando o Wi‑Fi local está lento. O Tailscale oferece recursos para conceder e revogar permissões de acesso à rede com facilidade.

  • Problema causado pela expiração de certificado

    O problema de expiração de certificado aconteceu de novo. Como parte da análise pós-incidente, recomenda-se separar o site de marketing dos caminhos críticos da operação dos clientes. Também se aponta que indisponibilidades em sites como GitHub ou Zendesk são mais comuns do que se imagina.

  • Problema de ligação entre o site de marketing e o app

    A pessoa compartilha um problema causado por colocar no site de marketing um link para a página de login do app. Quando o site de marketing cai, os usuários podem achar que o app também está fora do ar. Muitas vezes, os usuários seguem apenas o caminho fornecido e nem sabem que existe outra rota.

  • Insatisfação com a política de preços

    A pessoa gosta do serviço do Tailscale, mas é difícil vendê-lo para a diretoria porque um controle de acesso adequado para VPN custa US$ 18 por mês, um valor considerado alto. Também é difícil vender um plano mais básico sem controle de acesso.

  • Dúvida sobre o provedor do site

    Levanta-se a dúvida sobre quem é o provedor do site e se, por não haver suporte a IPv6, foi necessário passar por um procedimento complicado.

  • Elogio à cultura de engenharia

    A pessoa diz invejar o fato de terem feito uma grande atualização em dezembro com processos confiáveis de CI/CD e monitoramento. No entanto, ainda restam perguntas sem resposta: por que a renovação do certificado falhou por causa de um problema na configuração de IPv6, por que a resolução levou 90 minutos e por que não migraram para um provedor de DNS com suporte a IPv6.

  • Dúvida sobre a necessidade de terminação TLS

    Levanta-se a dúvida sobre se o proxy realmente precisa fazer a terminação de TLS ou se um proxy TCP simples não seria suficiente. Com um proxy TCP, talvez fosse possível fazer a renovação automática.

  • Menção satírica a alertas de calendário

    A pessoa gostou da forma espirituosa de falar em configurar vários alertas de calendário redundantes, como faziam os antepassados.

  • Preocupação com segurança

    Aponta-se que, se o Tailscale cometer mesmo um pequeno erro relacionado à segurança, ele pode parecer arriscado demais para pessoas um pouco paranoicas. Seria preciso uma solução melhor para isso.

  • Sugestão sobre monitoramento de infraestrutura e renovação automática

    Sugere-se que haja monitoramento de infraestrutura e que se adicione um código para verificar IPv4 e IPv6 de todos os domínios públicos e alertar 19 dias antes da expiração do certificado. Definir a renovação automática para 20 dias antes do vencimento pode evitar interrupções relacionadas a SSL.