6 pontos por GN⁺ 2025-03-18 | 1 comentários | Compartilhar no WhatsApp
  • Resumo da apresentação de David Rosenthal, especialista em preservação digital (Digital Preservation)

Diferença entre backup e arquivo

  • Backup é necessário para restaurar o estado mais recente em caso de desastre
    • A vida útil efetiva dos dados de backup é determinada pelo tempo entre o último backup e a restauração
    • A vida útil da mídia de armazenamento do backup não é importante
  • Depois de quase 20 anos trabalhando com preservação digital, estes são meus 4 métodos importantes de backup de sistemas
    • Servidor de e-mail e web: faz backup completo semanal e backup incremental diário em um Raspberry Pi → armazena o backup semanal em DVD-R
    • PC desktop: faz backup completo noturno em um disco rígido externo → faz rotação periódica entre 3 discos rígidos
    • iPhone: backup diário em um Mac Air → backup periódico do SSD via Time Machine
    • Armazenamento fora do local: guarda semanalmente DVD-R, SSD e discos rígidos em um local externo
  • O que são dados de arquivo?
    • Com o tempo, os dados descem na hierarquia de armazenamento
    • Dados de arquivo = dados cujo custo de manutenção no armazenamento operacional não pode ser sustentado
    • O principal objetivo de um sistema de armazenamento de arquivo é reduzir custos, aceitando maior latência de acesso

A realidade das mídias de armazenamento de arquivo

  • Há muito exagero na imprensa sobre “armazenamento que pode guardar dados para sempre”
  • É improvável que novas tecnologias de armazenamento vindas da pesquisa sejam usadas em larga escala no mercado
  • Mídias dedicadas a arquivo têm baixa demanda de mercado, o que dificulta seu sucesso comercial
    • Exemplo: a fita LTO representa menos de 1% de todo o mercado de mídias de armazenamento
    • Em 2023, o OD-3 (disco óptico de 1TB) foi cancelado por escassez no mercado

O problema do tempo de adoção das mídias de armazenamento

  • Novas tecnologias de armazenamento levam muito tempo para chegar ao mercado
  • Discos rígidos HAMR: foram introduzidos 26 anos após o início da pesquisa
  • Armazenamento em sílica e DNA: estão em pesquisa há décadas, mas ainda precisam de pelo menos mais 5 anos para comercialização

O problema da economia das mídias de armazenamento

  • O custo da infraestrutura do sistema de armazenamento é muito mais importante do que a própria mídia
    • O custo de mídias como fita e disco representa uma parcela pequena do custo total
    • É preciso operar em escala de data center para reduzir custos
    • Armazenamento de arquivo perde viabilidade econômica quando operado em pequena escala

Armazenamento em nuvem e o problema do lock-in

  • O custo de armazenamento de arquivo em serviços de nuvem é muito alto no longo prazo
  • Amazon Glacier: pode reduzir custos de retenção de longo prazo, mas o custo de recuperação de dados é alto
    • Custo de armazenamento: $10,900/ano
    • Custo de recuperação: $49,550 (base de 1PB)
    • Custo total: $60,950
    • Período de lock-in: 50.0 meses
  • Google Archive: alto custo de armazenamento e recuperação → ineficiente para retenção de longo prazo
    • Custo de armazenamento: $13,200/ano
    • Custo de recuperação: $210,810 (base de 1PB)
    • Custo total: $224,510
    • Período de lock-in: 175.6 meses
  • Microsoft Archive: custo de retenção baixo, mas alto custo de recuperação de dados
    • Custo de armazenamento: $22,000/ano
    • Custo de recuperação: $40,100 (base de 1PB)
    • Custo total: $62,200
    • Período de lock-in: 20.0 meses
  • Problema do lock-in: o alto custo de recuperação dificulta a migração dos dados
  • Amazon Glacier tem o menor custo de armazenamento e também um custo de recuperação relativamente baixo

Project Silica (projeto de sílica da Microsoft)

  • Sílica: mídia de armazenamento de dados de altíssima densidade
    • Armazena dados em um prato de sílica com laser de femtossegundo
    • Tem alta densidade de armazenamento e excelente estabilidade física
  • Problema de custo: lasers de femtossegundo são caros → espera-se queda de preço com produção em massa
  • Separação entre leitura e gravação → reforça a segurança e garante a integridade dos dados
  • Problema de velocidade de leitura: tempo de resposta estimado em 15 horas → eficiente apenas em sistemas de grande escala

Problema da recuperação de dados

  • O mais importante em arquivo é a possibilidade de recuperar os dados
  • A Microsoft armazena código-fonte open source em filme na ilha de Svalbard
    • A possibilidade de recuperação após um desastre é baixa
    • O acesso é difícil devido à distância e ao mau tempo

Sistema LOCKSS (Lots Of Copies Keep Stuff Safe)

  • Mantém múltiplas cópias em mídias de baixo custo → aumenta a segurança dos dados
  • Backup e recuperação são garantidos por meio de muitas réplicas, em vez de sistemas caros
  • Eficiência de custo é essencial → preferência por sistemas de armazenamento baratos em vez de mídias caras

Conclusão

  • O ponto central do armazenamento de arquivo não é a tecnologia, mas a viabilidade econômica
    • Mídias dedicadas a arquivo são economicamente ineficientes
    • Serviços de nuvem têm alto custo de recuperação → geram problema de lock-in
  • Operar em data centers de grande escala é necessário para reduzir o custo do armazenamento de longo prazo
  • Project Silica é a tecnologia de armazenamento de arquivo mais promissora, mas ainda precisa de tempo para ser comercializada

1 comentários

 
GN⁺ 2025-03-18
Comentários no Hacker News
  • Há AI, computação quântica, telas 6K, M2 NVME e bilhões de dispositivos de rede, mas dados comuns podem durar só cerca de 5 anos por causa de falhas de disco, instabilidade de SSD e bit rot
    • Para contornar isso, é preciso manter continuamente JBOD, RAID e NAS, ou gravar em Blu-ray M-Disc, ou confiar na nuvem, ou fazer ambos
    • Uma estratégia simples de backup 3-2-1 pode funcionar se der sorte, mas arquivamento de dados em grande escala continua sendo difícil
  • Tenho pensado no problema dos "séculos", e os métodos que provavelmente funcionam com certeza são os seguintes
    • Gravar ou prensar em um material (placas de pedra, cilindros de Edison, discos shellac 78 rpm, vinil, Voyager Golden Record etc.)
    • Imprimir ou perfurar em papel com tinta (livros, cartões, fitas)
    • Fotografia; microficha/microfilme (GitHub Arctic Code Vault), litografia
  • Recentemente pesquisei como "imprimir" microfilme de grau arquivístico, e há algumas opções, mas a maioria é para digitalizar microfilme e criar uma cópia digital
    • Pela minha experiência pessoal, um desenho a lápis que fiz no segundo ano provavelmente vai durar algumas centenas de anos a mais do que materiais digitais
  • Em escala empresarial, o cálculo de custos pode ser diferente da escala pessoal
    • Linear Tape-Open é uma mídia de armazenamento barata quando é preciso guardar petabytes
    • Com o custo de um drive, dá para comprar 400 TB em discos rígidos
    • Acho que discos rígidos produzidos em massa são mais confiáveis do que fitas LTO
    • Pessoalmente, minha experiência com fitas não foi boa
  • A nota "fiz uma pesquisa geológica no verão de 1969 no arquipélago de Svalbard" despertou curiosidade para saber mais sobre o autor, e a carreira dele é muito interessante
  • Ao usar cloud storage para backup, não se deve esquecer de ativar Object Lock
    • Não é tão bom quanto armazenamento offline, mas é muito melhor do que mídia de leitura/gravação
    • Na empresa, usam restic para fazer backup no B2, com backup deduplicado em todas as execuções
  • Uso a estratégia de backup 3-2-1
    • Mantenho três cópias dos dados em dois tipos diferentes de mídia, e uma cópia fica fora do local
    • Dados importantes ficam espelhados em SSD, e mantenho várias cópias em Blu-ray
    • O motivo de usar Blu-ray é proteção contra tempestades geomagnéticas como o Evento Carrington de 1859
  • Gostaria que arquivos em fita fossem mais acessíveis
    • Como é um nicho voltado principalmente para empresas, os drives começam na casa de milhares de dólares, e com menor capacidade ficam abaixo de SSDs modernos
  • O artigo aborda vários temas, e é difícil tirar uma única conclusão
    • Termina com uma citação do CTO da Backblaze: "prepare-se para falhas e compre os componentes mais baratos"
    • Serve para grandes empresas, mas não para pessoas físicas ou pequenas empresas
    • Pessoalmente, faço backup em discos rígidos externos baratos e armazeno arquivos em Blu-ray M-DISC
  • Guardo arquivos desde 1991 e os migrei entre vários formatos
    • Uso a estratégia de backup 3-2-1 e verifico checksums de todos os arquivos duas vezes por ano
    • Com scripts, isso pode ser resolvido facilmente com alguns comandos semanais
  • Pergunta-se a opinião sobre o LOCKSS
    • O LOCKSS parece levar a sério a ideia de que, se os dados não foram verificados recentemente, então na prática eles não existem