- Uma falha no Tarsnap fez com que o serviço ficasse offline.
- A interrupção foi causada por uma falha na verificação de integridade do sistema do servidor central do Tarsnap hospedado na região EC2 us-east-1 da Amazon.
- A causa exata da falha é desconhecida, mas suspeita-se de uma falha isolada de hardware.
- O sistema de monitoramento do Tarsnap detectou a falha e enviou um alerta ao operador.
- Uma instância EC2 alternativa foi criada, mas o código do servidor Tarsnap não foi reiniciado automaticamente para evitar perda de dados.
- Após reiniciar o servidor, os logs mostraram corrupção no sistema de arquivos, então decidiu-se configurar um novo servidor em vez de recuperar o anterior.
- O processo de recuperação incluiu ler cabeçalhos de metadados do Amazon S3 e reexecutar o trabalho localmente.
- Durante a recuperação, ocorreram erros relacionados à ordem das entradas de log de registro de máquinas e de entradas de log não inicializadas.
- O processo de recuperação foi mais lento do que o esperado e poderia ter sido otimizado para um desempenho mais rápido.
- O processo de restauração do estado foi concluído em 3 de julho, e o servidor voltou a ficar online.
- Após a interrupção, o tráfego foi retomado cerca de 26 horas e 16 minutos depois do início da falha.
- Como compensação pela interrupção, o Tarsnap ofereceu às contas dos usuários 50% do custo de armazenamento de um mês.
- Os usuários são orientados a entrar em contato com Colin Percival, fundador do Tarsnap, em caso de dúvidas ou preocupações.
1 comentários
Comentários no Hacker News