- Indicadores de durabilidade do EBS gp3: segundo a documentação oficial da AWS, a taxa anual de falha (AFR) é de 0,1% a 0,2%. A durabilidade com base em um único disco é muito alta, em 99,9%, mas, à medida que a escala da infraestrutura cresce, o risco probabilístico se acumula.
- Probabilidade de falha conforme a escala:
- Ao operar 1.000 discos, a probabilidade de não ocorrer nenhuma falha em 1 ano é de cerca de 36,8% ($0.999^{1000}$).
- Ou seja, estatisticamente, há cerca de 63,2% de chance de ocorrer falha em pelo menos 1 disco, um nível de risco que deve ser tratado como constante no projeto.
- Mudança na taxa de sobrevivência conforme a estrutura de armazenamento:
- Estrutura distribuída (Sharding/RAID 0): a durabilidade de todo o sistema é determinada pelo produto da durabilidade de cada elemento ($R^n$). Quanto maior o número de discos, a probabilidade de sobrevivência do sistema cai de forma exponencial.
- Estrutura com replicação (Mirroring/RAID 1): ao reduzir ao quadrado a probabilidade de falha por shard ($Q^2$), é possível melhorar drasticamente a durabilidade de todo o sistema mesmo usando o mesmo hardware.
- Separação das estratégias de gerenciamento:
- Redundancy (RAID etc.): estratégia para manter a disponibilidade e a durabilidade do serviço diante de falhas mecânicas do hardware físico.
- Backup (snapshots no S3 etc.): o único meio de recuperar a 'corrupção lógica dos dados', como erros de operação, bugs de software e ransomware. As duas abordagens não podem substituir uma à outra.
- Conclusão: é verdade que serviços gerenciados em nuvem oferecem alta estabilidade, mas a durabilidade final do sistema é determinada menos pelas especificações dos componentes individuais e mais pela capacidade do engenheiro de projetar a arquitetura.
1 comentários
Gostei muito do texto. ^^
É justamente a última área em que não se deve economizar, né? haha