1 pontos por GN⁺ 2024-09-14 | 1 comentários | Compartilhar no WhatsApp

NAS ZFS de 71 TiB sem falhas de drive por 10 anos

  • Hardware

    • NAS ZFS de 71 TiB composto por 24 drives de 4 TB
    • Nenhuma falha de drive sequer ao longo de 10 anos
    • Atualmente em uso com a segunda placa-mãe e a segunda fonte de alimentação
  • Gerenciamento dos drives

    • Os drives HGST de 4 TB foram usados por cerca de 6000 horas ao longo de 10 anos
    • Manter o servidor desligado quando não está em uso ajuda a prolongar a vida útil dos drives
    • Uso de scripts para ligar e desligar o servidor remotamente
    • O servidor fica desligado por padrão para economizar energia e aumentar a vida útil dos drives
  • Troca da placa-mãe

    • A placa-mãe foi substituída há alguns anos devido a falha
    • Ocorreram problemas como impossibilidade de entrar no BIOS e falhas de boot
    • O problema foi resolvido comprando a mesma placa-mãe no Ebay
  • ZFS

    • O ZFS funciona sem problemas em vários sistemas operacionais
    • O zpool scrub foi executado algumas vezes, mas sem erros de checksum
    • O ZFS é muito eficaz na prevenção de perda de dados
  • Controle de ruído

    • A velocidade padrão das ventoinhas era muito alta, gerando muito ruído
    • Foi criado um script para ajustar a velocidade das ventoinhas conforme a temperatura
    • Um controlador PID é usado para regular a velocidade das ventoinhas e o ruído
  • Rede

    • No início, era usado um controlador de rede gigabit
    • Após a troca para uma placa Infiniband, foi alcançada velocidade de transferência de 700 MB/s
    • Atualmente, é usada uma placa Ethernet de 10 Gbit
  • Fonte de alimentação

    • No boot, todos os drives giram ao mesmo tempo, consumindo 600 W de energia
    • A fonte de alimentação às vezes corta a energia durante o boot
  • Fim do uso de UPS

    • O UPS consumia energia adicional, por isso deixou de ser usado
    • Aceitou-se o risco de perda do sistema por problemas de energia
  • Backup

    • Os dados importantes são armazenados em três backups
    • Os dados não importantes não são salvos em backup
    • A substituição de hardware e o ZFS ajudam a evitar perda de dados
  • Planos futuros

    • No momento, não há planos para expandir o armazenamento
    • Há uma placa-mãe, CPU, memória e placa HBA sobressalentes
    • Com o aumento da capacidade dos drives, existe a possibilidade de migrar para um formato menor
    • Se o sistema quebrar, também existe a possibilidade de abandonar o hobby de armazenamento

Resumo do GN⁺

  • Este texto compartilha a experiência com um NAS ZFS de 71 TiB operado por 10 anos sem falhas de drive
  • Desligar o servidor quando não está em uso ajuda bastante a prolongar a vida útil dos drives
  • O ZFS é muito eficaz na prevenção de perda de dados, e o ajuste da velocidade das ventoinhas pode reduzir o ruído
  • Diversas placas de rede foram usadas para aumentar a velocidade de transferência na rede
  • Também são compartilhadas experiências sobre estratégia de backup e gerenciamento da fonte de alimentação

1 comentários

 
GN⁺ 2024-09-14
Comentários do Hacker News
  • A discussão gira principalmente em torno de ZFS e BTRFS, mas há curiosidade se alguém já usou bcachefs

    • bcachefs está incluído no kernel Linux e tem funcionalidade de checksums de ponta a ponta
    • Há um autor que leva a sério a responsabilidade de um sistema de arquivos
  • Pergunta sobre existir algum cronograma de rodízio dos drives

    • Estão usando 24 drives do mesmo modelo, aparentemente do mesmo lote
    • Há maior chance de falharem ao mesmo tempo por terem desgaste parecido
    • Armazenamento confiável é complicado
  • Já ouviram a opinião contrária de que deixar os drives sempre ligados pode reduzir o desgaste em comparação com desligar e ligar periodicamente

    • Preferem manter o NAS com ZFS sempre ligado para verificar os dados regularmente
    • Em 10 anos operando um sistema com 4 drives, 2 falharam, mas não eram drives de classe enterprise (WD Green)
  • Ventoinhas grandes conseguem mover muito ar mesmo em RPM baixo e são mais eficientes energeticamente

    • A Oxide Computer destaca o uso de ventoinhas de 80 mm por serem silenciosas e consumirem pouca energia
    • Em outros servidores, o consumo das ventoinhas chega a 25% da energia total, mas nestes fica em cerca de 1%
  • Gostariam de ouvir mais sobre a coleção de filmes

    • Há interesse em como os itens iniciais foram escolhidos e quais permanecem na coleção após mais de 10 anos
  • Está se assumindo o risco de perder o sistema por problemas de energia

    • Um UPS evita falhas raras causadas por desequilíbrios na energia
    • Obras ou raios podem causar picos de energia
    • O UPS se sacrifica antes que o servidor seja danificado, oferecendo proteção
  • 24 drives podem trazer vantagens de desempenho, mas usar um NAS de 6 baias com discos de 18 TB oferece muitas vantagens em consumo de energia, ruído, espaço, custo e confiabilidade

  • O ambiente em que os drives operam afeta muito a vida útil

    • Ambientes residenciais são mais variáveis do que data centers ou escritórios
    • Variações de temperatura e umidade, além de poeira, têm grande impacto
    • Em ambientes limpos e estáveis, as falhas de drive diminuem significativamente
  • Desligar os drives não era o segredo; foi simplesmente sorte

    • Há drives HGST de 4 TB rodando 24/7 há mais de 10 anos sem falhas
    • Outras pessoas tiveram vários RMAs com os mesmos drives
  • Também houve drives para os quais mudar o ciclo de energia era arriscado

    • Nem sempre isso é bom para todo mundo
    • Alguns SSDs precisam de energia periodicamente
    • O ciclo de trabalho de um NAS provavelmente atende a essa exigência
    • O custo da energia ficou mais barato
    • Há curiosidade se a Backblaze modela estatísticas de vida útil com base no número de ciclos de liga/desliga dos drives