1 pontos por GN⁺ 2025-02-21 | 1 comentários | Compartilhar no WhatsApp

Debug da Hetzner: resolvendo problemas com powerstat, sensors e dmidecode

  • Contexto

    • A Ubicloud adotou os servidores AX162 da Hetzner, mas enfrentou sérios problemas de confiabilidade.
    • Os servidores AX162 tinham desempenho superior ao modelo anterior e preço mais baixo, mas travavam 16 vezes mais.
    • O problema só foi resolvido após várias atualizações de hardware.
  • Ocorrência do problema

    • O primeiro servidor AX162 travou apenas 3 semanas após a compra.
    • Bytes NULL foram encontrados nos logs do sistema, o que indicava uma falha repentina, como perda de energia.
    • A Hetzner realizou verificações de hardware, mas não encontrou anomalias.
    • À medida que a frequência dos travamentos aumentava, a Hetzner substituía os servidores sempre que encontrava um defeito de hardware.
  • Investigação inicial

    • Carga do sistema: pensou-se que o problema pudesse ocorrer com mais probabilidade quando a carga aumentava, mas os travamentos também aconteciam com carga baixa ou inexistente.
    • Temperatura: a temperatura foi medida com sensores, mas no momento dos travamentos ela não estava acima da média.
    • Componentes defeituosos: informações de hardware foram coletadas com o comando dmidecode, mas não havia grandes diferenças entre os servidores que travavam e os que não travavam.
    • Consumo de energia: o consumo foi medido com a ferramenta powerstat, e surgiu a suspeita de que a Hetzner pudesse estar limitando o uso de energia.
  • Coleta e comparação de dados da taxa de travamento

    • A confiabilidade do hardware foi medida usando a taxa anual de falhas (AFR).
    • Os servidores AX162 falhavam 16 vezes mais do que outros modelos.
    • Após o primeiro travamento, 80% dos servidores sofreram um segundo travamento em até 24 horas.
  • Observação da estabilidade com o novo hardware

    • A Hetzner identificou um lote defeituoso de placas-mãe e recomendou a substituição.
    • Mesmo após a troca pela nova placa-mãe, os travamentos continuaram.
    • Depois da substituição pela placa-mãe mais recente e de alguns meses de monitoramento, o problema de travamento foi resolvido.
  • Melhorias no processo

    • É necessária uma análise rigorosa ao adotar um novo modelo de servidor.
    • O novo hardware deve ser introduzido gradualmente, começando por tarefas não essenciais.
    • Adicionar mais provedores de bare metal ajuda a distribuir o risco.
  • Conclusão

    • A adoção inicial dos servidores da Hetzner causou problemas, mas eles foram resolvidos por meio de melhorias contínuas.
    • A Ubicloud continuará se esforçando para oferecer soluções de nuvem com confiabilidade e capacidade de adaptação.

1 comentários

 
GN⁺ 2025-02-21
Comentários do Hacker News
  • A maioria dos outros modelos AX (AX42, AX52, AX102) também tem sérios problemas de confiabilidade e quebram depois de alguns meses. Isso se baseia em placas-mãe defeituosas. A Hetzner provavelmente terá que trocar a maioria das placas-mãe dos servidores fabricados antes de uma certa data
  • Na empresa anterior, falhas no cooler da CPU eram encontradas com frequência na Hetzner. Isso acontecia além das falhas normais de HD/SSD. É preciso ter monitoramento próprio, e esse é um dos motivos pelos quais servidores não gerenciados são mais baratos do que instâncias em nuvem
  • Olhando para trás, se eu tivesse esperado 6 meses, poderia ter evitado muitos problemas. Usuários iniciais muitas vezes encontram problemas que são corrigidos depois
    • Esse é um conselho muito bom, e eu o sigo para qualquer sistema que exija estabilidade
    • Se não houver problema de segurança, espero alguns meses ou fico uma ou duas versões atrás
  • A Hetzner não confirmou nem negou a possibilidade de limitação de energia
    • Qual é a consequência da limitação de energia? Segundo o artigo, o hardware pode se degradar mais rápido
    • A falta de resposta da Hetzner e as medições da UbiCloud parecem sugerir que ela realmente está limitando a energia. Se não estivesse, teria dito isso
  • A Dell também passa por esse problema às vezes. Quando recebemos o primeiro lote dos servidores antigos deles, tivemos que substituir a seção de I/O (traseira). Depois de resolver isso, eles operaram por quase 10 anos
    • Recentemente aposentei esses servidores. Tudo estava desgastado, da placa RAID aos reguladores de energia
    • É chocante reiniciar um servidor que está funcionando perfeitamente por causa de uma mudança de configuração e perder a placa RAID para sempre
  • Para aumentar o número de máquinas sob restrições de energia, operadores de data center normalmente limitam o consumo de energia por máquina. No entanto, isso pode fazer a placa-mãe se degradar mais rápido
    • Alguém pode explicar esse ponto? Isso parece contraintuitivo
    • Pelos resultados de busca, se houver thermal throttling, temperaturas operacionais mais altas podem degradar componentes (por exemplo, capacitores) mais rapidamente. Mas o artigo investigou vários sensores de temperatura, então isso não parece se aplicar aqui
  • Fico me perguntando se isso poderia ser um problema de alimentação/sinal ou de VRM. O fato de a CPU não estar quente não significa que outras partes da placa não estejam fora da especificação e causando falhas catastróficas
    • Problemas de placa-mãe relacionados a alimentação/sinal são difíceis de diagnosticar. Eles aparecem como problemas ligados a outros componentes, e você acaba trocando tudo antes de finalmente substituir a placa-mãe
  • Algo parecido aconteceu no AX102 que estou usando agora. Houve travamentos relacionados à placa de rede. Felizmente, o suporte da Hetzner ajudou na troca do hardware. Causou muito sofrimento, mas foi uma boa lição sobre como resolver problemas de hardware
  • Alguém com experiência em data center consegue imaginar a que tipo de solução comercial a Hetzner pode ter chegado com o fornecedor das placas-mãe? Dá para supor que trocaram todas as placas sem custo e receberam compensação?
  • Antes de presumir que existe limitação de energia, eu gostaria de ver qual governor de CPU está rodando nesses sistemas. Muitas instalações padrão de Linux usam governor de economia de energia, o que limita a frequência máxima e a potência máxima