Ferramentas de crise para Linux
- Fornece uma lista de "ferramentas de crise" que devem ser instaladas por padrão em servidores Linux, junto com os nomes dos pacotes (Ubuntu) que as incluem.
- Inclui ferramentas para estatísticas básicas, logs do sistema, informações de dispositivos, estatísticas de dispositivos, ferramentas de rede, estatísticas NUMA, sniffers de rede, profilers e estatísticas de PMU.
bpfcc-tools (bcc) e bpftrace fornecem ferramentas eBPF; o bcc tem mais recursos, e o bpftrace pode ser editado em tempo real.
- Dependendo do servidor, também é recomendada a pré-instalação de ferramentas específicas para análise de aceleradores ou depuração.
- Essas ferramentas essenciais de análise não mudam com frequência, então normalmente só precisam ser atualizadas uma vez a cada alguns anos.
A importância de instalar ferramentas em momentos de crise
- Explica, com exemplos, os problemas que podem surgir ao instalar software durante uma situação de crise em ambiente de produção.
- O sistema pode ficar lento, fazendo com que a instalação das ferramentas necessárias demore muito, e diversos problemas de configuração ou políticas de segurança podem dificultar a instalação.
- Para diagnosticar e resolver rapidamente problemas em situações críticas, é recomendável instalar previamente as ferramentas de crise.
Opinião do GN⁺
- Este artigo oferece informações muito úteis para administradores de sistemas e SREs (engenheiros de confiabilidade de sites). Ele enfatiza a importância da preparação prévia para que as ferramentas necessárias possam ser usadas rapidamente em uma crise real.
- A pré-instalação de ferramentas de crise contribui para aumentar a disponibilidade e a resiliência do sistema, além de ajudar a minimizar possíveis tempos de indisponibilidade.
- No entanto, é importante encontrar um equilíbrio entre segurança e desempenho. Por exemplo, se ferramentas desnecessárias estiverem instaladas no sistema, um invasor poderá explorá-las.
- Distribuições Linux podem considerar incluir ferramentas de crise por padrão para ambientes corporativos, mas isso pode variar conforme as políticas de segurança e as necessidades de cada organização.
- A comunidade open source já oferece diversas ferramentas de monitoramento e análise de desempenho; por exemplo, ferramentas como Prometheus e Grafana são amplamente usadas para monitorar o desempenho de sistemas. Usar essas ferramentas integradas às ferramentas de crise pode tornar a administração de sistemas ainda mais eficaz.
1 comentários
Comentários do Hacker News
Há muitos servidores conteinerizados, mas ainda existem desafios.
gdbsão motivo de preocupação, mas muitas outras não são.Se houver ferramentas de debug que exijam ativar recursos específicos do kernel, existe preocupação com o impacto sobre outros contêineres em execução no mesmo host.
Em sistemas FreeBSD, existe o diretório /rescue/, que fornece um único arquivo binário com linkagem estática de cerca de 17 MB, combinando aproximadamente 150 ferramentas essenciais.
Quando trabalhava na Netflix, Brendan e sua equipe deixavam ferramentas de depuração como
bpftrace,bcce umperffuncional instaladas por toda parte, e isso salvou a situação várias vezes.Surpreende que
stracenão esteja na lista. É uma ferramenta especialmente útil quando um programa retorna mensagens de erro inúteis ou incorretas.Ao entrevistar para cargos do tipo SRE, essas ferramentas sempre entram na conversa. Mais do que comandos específicos que o candidato memoriza, o importante é o que é possível fazer, os tipos de ferramentas disponíveis e como usá-las.
Em uma situação crítica em que não seja possível instalar ferramentas, dá para executar muitos utilitários via Docker. Por exemplo, é sugerida uma forma de criar e executar um contêiner Docker rodando
tcpdumpenquanto está conectado à rede do host.yum installé preferível, mas se Docker estiver disponível, isso é uma alternativa viável, mesmo que exija mapeamentos adicionais. Pode não funcionar em configurações rootless/Podman.nmap,netstatencnão foram mencionados. Essas ferramentas ajudaram várias vezes a resolver problemas.É possível obter acesso root? É preciso abrir um chamado para o administrador do sistema antes de poder fazer qualquer coisa.
O que eu acrescentaria é
nmap. Problemas de conectividade de rede podem não ser claros em alguns aplicativos.