2 pontos por GN⁺ 2024-03-25 | 1 comentários | Compartilhar no WhatsApp

Ferramentas de crise para Linux

  • Fornece uma lista de "ferramentas de crise" que devem ser instaladas por padrão em servidores Linux, junto com os nomes dos pacotes (Ubuntu) que as incluem.
  • Inclui ferramentas para estatísticas básicas, logs do sistema, informações de dispositivos, estatísticas de dispositivos, ferramentas de rede, estatísticas NUMA, sniffers de rede, profilers e estatísticas de PMU.
  • bpfcc-tools (bcc) e bpftrace fornecem ferramentas eBPF; o bcc tem mais recursos, e o bpftrace pode ser editado em tempo real.
  • Dependendo do servidor, também é recomendada a pré-instalação de ferramentas específicas para análise de aceleradores ou depuração.
  • Essas ferramentas essenciais de análise não mudam com frequência, então normalmente só precisam ser atualizadas uma vez a cada alguns anos.

A importância de instalar ferramentas em momentos de crise

  • Explica, com exemplos, os problemas que podem surgir ao instalar software durante uma situação de crise em ambiente de produção.
  • O sistema pode ficar lento, fazendo com que a instalação das ferramentas necessárias demore muito, e diversos problemas de configuração ou políticas de segurança podem dificultar a instalação.
  • Para diagnosticar e resolver rapidamente problemas em situações críticas, é recomendável instalar previamente as ferramentas de crise.

Opinião do GN⁺

  • Este artigo oferece informações muito úteis para administradores de sistemas e SREs (engenheiros de confiabilidade de sites). Ele enfatiza a importância da preparação prévia para que as ferramentas necessárias possam ser usadas rapidamente em uma crise real.
  • A pré-instalação de ferramentas de crise contribui para aumentar a disponibilidade e a resiliência do sistema, além de ajudar a minimizar possíveis tempos de indisponibilidade.
  • No entanto, é importante encontrar um equilíbrio entre segurança e desempenho. Por exemplo, se ferramentas desnecessárias estiverem instaladas no sistema, um invasor poderá explorá-las.
  • Distribuições Linux podem considerar incluir ferramentas de crise por padrão para ambientes corporativos, mas isso pode variar conforme as políticas de segurança e as necessidades de cada organização.
  • A comunidade open source já oferece diversas ferramentas de monitoramento e análise de desempenho; por exemplo, ferramentas como Prometheus e Grafana são amplamente usadas para monitorar o desempenho de sistemas. Usar essas ferramentas integradas às ferramentas de crise pode tornar a administração de sistemas ainda mais eficaz.

1 comentários

 
GN⁺ 2024-03-25
Comentários do Hacker News
  • 16h07 falha na instalação de pacote, não foi possível resolver o repositório. Há um problema na configuração do /etc/apt…

    • Há desvantagens no ambiente de nuvem, mas isso é útil nessas situações. Em vez de um reparo complexo, é possível resolver o problema desligando a máquina com problema ou removendo-a do pool e usando uma máquina nova.
  • Há muitos servidores conteinerizados, mas ainda existem desafios.

    • Muitas ferramentas dentro de imagens Docker são sinalizadas como riscos por ferramentas de varredura de segurança. Ferramentas como gdb são motivo de preocupação, mas muitas outras não são.
    • Para evitar isso, as ferramentas ficam como binários estáticos em um volume separado, ou são compiladas e instaladas usando um caminho montado como prefixo de instalação. Quando é necessário depurar, a equipe de operações monta temporariamente o volume como somente leitura.
  • Se houver ferramentas de debug que exijam ativar recursos específicos do kernel, existe preocupação com o impacto sobre outros contêineres em execução no mesmo host.

  • Em sistemas FreeBSD, existe o diretório /rescue/, que fornece um único arquivo binário com linkagem estática de cerca de 17 MB, combinando aproximadamente 150 ferramentas essenciais.

  • Quando trabalhava na Netflix, Brendan e sua equipe deixavam ferramentas de depuração como bpftrace, bcc e um perf funcional instaladas por toda parte, e isso salvou a situação várias vezes.

  • Surpreende que strace não esteja na lista. É uma ferramenta especialmente útil quando um programa retorna mensagens de erro inúteis ou incorretas.

  • Ao entrevistar para cargos do tipo SRE, essas ferramentas sempre entram na conversa. Mais do que comandos específicos que o candidato memoriza, o importante é o que é possível fazer, os tipos de ferramentas disponíveis e como usá-las.

  • Em uma situação crítica em que não seja possível instalar ferramentas, dá para executar muitos utilitários via Docker. Por exemplo, é sugerida uma forma de criar e executar um contêiner Docker rodando tcpdump enquanto está conectado à rede do host.

  • yum install é preferível, mas se Docker estiver disponível, isso é uma alternativa viável, mesmo que exija mapeamentos adicionais. Pode não funcionar em configurações rootless/Podman.

  • nmap, netstat e nc não foram mencionados. Essas ferramentas ajudaram várias vezes a resolver problemas.

  • É possível obter acesso root? É preciso abrir um chamado para o administrador do sistema antes de poder fazer qualquer coisa.

  • O que eu acrescentaria é nmap. Problemas de conectividade de rede podem não ser claros em alguns aplicativos.