- Resumo da apresentação de David Rosenthal, especialista em preservação digital (Digital Preservation)
Diferença entre backup e arquivo
- Backup é necessário para restaurar o estado mais recente em caso de desastre
- A vida útil efetiva dos dados de backup é determinada pelo tempo entre o último backup e a restauração
- A vida útil da mídia de armazenamento do backup não é importante
- Depois de quase 20 anos trabalhando com preservação digital, estes são meus 4 métodos importantes de backup de sistemas
- Servidor de e-mail e web: faz backup completo semanal e backup incremental diário em um Raspberry Pi → armazena o backup semanal em DVD-R
- PC desktop: faz backup completo noturno em um disco rígido externo → faz rotação periódica entre 3 discos rígidos
- iPhone: backup diário em um Mac Air → backup periódico do SSD via Time Machine
- Armazenamento fora do local: guarda semanalmente DVD-R, SSD e discos rígidos em um local externo
- O que são dados de arquivo?
- Com o tempo, os dados descem na hierarquia de armazenamento
- Dados de arquivo = dados cujo custo de manutenção no armazenamento operacional não pode ser sustentado
- O principal objetivo de um sistema de armazenamento de arquivo é reduzir custos, aceitando maior latência de acesso
A realidade das mídias de armazenamento de arquivo
- Há muito exagero na imprensa sobre “armazenamento que pode guardar dados para sempre”
- É improvável que novas tecnologias de armazenamento vindas da pesquisa sejam usadas em larga escala no mercado
- Mídias dedicadas a arquivo têm baixa demanda de mercado, o que dificulta seu sucesso comercial
- Exemplo: a fita LTO representa menos de 1% de todo o mercado de mídias de armazenamento
- Em 2023, o OD-3 (disco óptico de 1TB) foi cancelado por escassez no mercado
O problema do tempo de adoção das mídias de armazenamento
- Novas tecnologias de armazenamento levam muito tempo para chegar ao mercado
- Discos rígidos HAMR: foram introduzidos 26 anos após o início da pesquisa
- Armazenamento em sílica e DNA: estão em pesquisa há décadas, mas ainda precisam de pelo menos mais 5 anos para comercialização
O problema da economia das mídias de armazenamento
- O custo da infraestrutura do sistema de armazenamento é muito mais importante do que a própria mídia
- O custo de mídias como fita e disco representa uma parcela pequena do custo total
- É preciso operar em escala de data center para reduzir custos
- Armazenamento de arquivo perde viabilidade econômica quando operado em pequena escala
Armazenamento em nuvem e o problema do lock-in
- O custo de armazenamento de arquivo em serviços de nuvem é muito alto no longo prazo
- Amazon Glacier: pode reduzir custos de retenção de longo prazo, mas o custo de recuperação de dados é alto
- Custo de armazenamento: $10,900/ano
- Custo de recuperação: $49,550 (base de 1PB)
- Custo total: $60,950
- Período de lock-in: 50.0 meses
- Google Archive: alto custo de armazenamento e recuperação → ineficiente para retenção de longo prazo
- Custo de armazenamento: $13,200/ano
- Custo de recuperação: $210,810 (base de 1PB)
- Custo total: $224,510
- Período de lock-in: 175.6 meses
- Microsoft Archive: custo de retenção baixo, mas alto custo de recuperação de dados
- Custo de armazenamento: $22,000/ano
- Custo de recuperação: $40,100 (base de 1PB)
- Custo total: $62,200
- Período de lock-in: 20.0 meses
- Problema do lock-in: o alto custo de recuperação dificulta a migração dos dados
- Amazon Glacier tem o menor custo de armazenamento e também um custo de recuperação relativamente baixo
Project Silica (projeto de sílica da Microsoft)
- Sílica: mídia de armazenamento de dados de altíssima densidade
- Armazena dados em um prato de sílica com laser de femtossegundo
- Tem alta densidade de armazenamento e excelente estabilidade física
- Problema de custo: lasers de femtossegundo são caros → espera-se queda de preço com produção em massa
- Separação entre leitura e gravação → reforça a segurança e garante a integridade dos dados
- Problema de velocidade de leitura: tempo de resposta estimado em 15 horas → eficiente apenas em sistemas de grande escala
Problema da recuperação de dados
- O mais importante em arquivo é a possibilidade de recuperar os dados
- A Microsoft armazena código-fonte open source em filme na ilha de Svalbard
- A possibilidade de recuperação após um desastre é baixa
- O acesso é difícil devido à distância e ao mau tempo
Sistema LOCKSS (Lots Of Copies Keep Stuff Safe)
- Mantém múltiplas cópias em mídias de baixo custo → aumenta a segurança dos dados
- Backup e recuperação são garantidos por meio de muitas réplicas, em vez de sistemas caros
- Eficiência de custo é essencial → preferência por sistemas de armazenamento baratos em vez de mídias caras
Conclusão
- O ponto central do armazenamento de arquivo não é a tecnologia, mas a viabilidade econômica
- Mídias dedicadas a arquivo são economicamente ineficientes
- Serviços de nuvem têm alto custo de recuperação → geram problema de lock-in
- Operar em data centers de grande escala é necessário para reduzir o custo do armazenamento de longo prazo
- Project Silica é a tecnologia de armazenamento de arquivo mais promissora, mas ainda precisa de tempo para ser comercializada
1 comentários
Comentários no Hacker News