Powerstat, sensors e dmidecode revelam problemas na Hetzner
(ubicloud.com)Debug da Hetzner: resolvendo problemas com powerstat, sensors e dmidecode
-
Contexto
- A Ubicloud adotou os servidores AX162 da Hetzner, mas enfrentou sérios problemas de confiabilidade.
- Os servidores AX162 tinham desempenho superior ao modelo anterior e preço mais baixo, mas travavam 16 vezes mais.
- O problema só foi resolvido após várias atualizações de hardware.
-
Ocorrência do problema
- O primeiro servidor AX162 travou apenas 3 semanas após a compra.
- Bytes NULL foram encontrados nos logs do sistema, o que indicava uma falha repentina, como perda de energia.
- A Hetzner realizou verificações de hardware, mas não encontrou anomalias.
- À medida que a frequência dos travamentos aumentava, a Hetzner substituía os servidores sempre que encontrava um defeito de hardware.
-
Investigação inicial
- Carga do sistema: pensou-se que o problema pudesse ocorrer com mais probabilidade quando a carga aumentava, mas os travamentos também aconteciam com carga baixa ou inexistente.
- Temperatura: a temperatura foi medida com sensores, mas no momento dos travamentos ela não estava acima da média.
- Componentes defeituosos: informações de hardware foram coletadas com o comando dmidecode, mas não havia grandes diferenças entre os servidores que travavam e os que não travavam.
- Consumo de energia: o consumo foi medido com a ferramenta powerstat, e surgiu a suspeita de que a Hetzner pudesse estar limitando o uso de energia.
-
Coleta e comparação de dados da taxa de travamento
- A confiabilidade do hardware foi medida usando a taxa anual de falhas (AFR).
- Os servidores AX162 falhavam 16 vezes mais do que outros modelos.
- Após o primeiro travamento, 80% dos servidores sofreram um segundo travamento em até 24 horas.
-
Observação da estabilidade com o novo hardware
- A Hetzner identificou um lote defeituoso de placas-mãe e recomendou a substituição.
- Mesmo após a troca pela nova placa-mãe, os travamentos continuaram.
- Depois da substituição pela placa-mãe mais recente e de alguns meses de monitoramento, o problema de travamento foi resolvido.
-
Melhorias no processo
- É necessária uma análise rigorosa ao adotar um novo modelo de servidor.
- O novo hardware deve ser introduzido gradualmente, começando por tarefas não essenciais.
- Adicionar mais provedores de bare metal ajuda a distribuir o risco.
-
Conclusão
- A adoção inicial dos servidores da Hetzner causou problemas, mas eles foram resolvidos por meio de melhorias contínuas.
- A Ubicloud continuará se esforçando para oferecer soluções de nuvem com confiabilidade e capacidade de adaptação.
1 comentários
Comentários do Hacker News