1 pontos por GN⁺ 2023-07-28 | 1 comentários | Compartilhar no WhatsApp
  • Uma falha no Tarsnap fez com que o serviço ficasse offline.
  • A interrupção foi causada por uma falha na verificação de integridade do sistema do servidor central do Tarsnap hospedado na região EC2 us-east-1 da Amazon.
  • A causa exata da falha é desconhecida, mas suspeita-se de uma falha isolada de hardware.
  • O sistema de monitoramento do Tarsnap detectou a falha e enviou um alerta ao operador.
  • Uma instância EC2 alternativa foi criada, mas o código do servidor Tarsnap não foi reiniciado automaticamente para evitar perda de dados.
  • Após reiniciar o servidor, os logs mostraram corrupção no sistema de arquivos, então decidiu-se configurar um novo servidor em vez de recuperar o anterior.
  • O processo de recuperação incluiu ler cabeçalhos de metadados do Amazon S3 e reexecutar o trabalho localmente.
  • Durante a recuperação, ocorreram erros relacionados à ordem das entradas de log de registro de máquinas e de entradas de log não inicializadas.
  • O processo de recuperação foi mais lento do que o esperado e poderia ter sido otimizado para um desempenho mais rápido.
  • O processo de restauração do estado foi concluído em 3 de julho, e o servidor voltou a ficar online.
  • Após a interrupção, o tráfego foi retomado cerca de 26 horas e 16 minutos depois do início da falha.
  • Como compensação pela interrupção, o Tarsnap ofereceu às contas dos usuários 50% do custo de armazenamento de um mês.
  • Os usuários são orientados a entrar em contato com Colin Percival, fundador do Tarsnap, em caso de dúvidas ou preocupações.

1 comentários

 
GN⁺ 2023-07-28
Comentários no Hacker News
  • O editor deste artigo creditou a todas as contas do Tarsnap 50% do custo de armazenamento de um mês após a indisponibilidade.
  • Esse editor está sendo elogiado pela forma generosa e centrada no cliente com que lidou com a situação.
  • O editor expressa surpresa com a popularidade do artigo e menciona que tem limitações para responder perguntas por motivos pessoais.
  • Um comentarista sugere que trocar mais tempo de indisponibilidade por descanso pode ajudar na resolução do problema.
  • Testar regularmente o processo de recuperação ajuda a identificar e corrigir bugs ou outros problemas.
  • Esta análise pós-incidente está sendo elogiada pelo profissionalismo, pela cortesia e pela honestidade.
  • Comentadores recomendam definir e testar etapas de recuperação de falhas para minimizar futuras indisponibilidades.
  • Em incidentes semelhantes, sugere-se contratar alguém em tempo parcial para melhorar a resiliência do negócio.
  • Para usuários em potencial, menciona-se o risco de depender de uma única pessoa, neste caso Colin Percival.
  • Foi identificado que um erro de código de 2014 foi a causa da indisponibilidade, e recomenda-se usar modelagem em TLA+ para detectar problemas desse tipo.
  • A página de infraestrutura do site do Tarsnap deveria ser atualizada para refletir a indisponibilidade.
  • Levanta-se a pergunta se é possível integrar o software de criptografia do Tarsnap ao Dropbox para armazenar dados com segurança.