1 pontos por GN⁺ 2024-07-30 | 1 comentários | Compartilhar no WhatsApp

O impacto da CrowdStrike na indústria da aviação

  • Em 19 de julho de 2024, a CrowdStrike distribuiu uma atualização de configuração do sensor para sistemas Windows
  • Por causa dessa atualização, cerca de 8,5 milhões de computadores sofreram tela azul, afetando várias instituições, como hospitais, bancos e sistemas 911
  • Linux, Mac e celulares não foram afetados

Impacto na indústria da aviação dos EUA

  • É apresentado um gráfico comparando, por hora, o número de aeronaves que decolaram nos Estados Unidos em 19 de julho
  • Em comparação com 12 de julho, houve uma leve queda entre 0600 e 1300, seguida de um leve aumento depois disso
  • Nas estatísticas acumuladas iniciadas às 0400, houve um aumento de 2,6% em relação à sexta-feira da semana anterior

Estatísticas das companhias aéreas

  • São apresentadas estatísticas das quatro principais companhias aéreas dos EUA (Delta, United, American, Southwest)
  • Delta: -1087 voos (-46%)
  • United: -596 voos (-36%)
  • American: -376 voos (-16%)
  • Southwest: +101 voos (+3%)

Resumo das companhias aéreas

  • A Delta foi a mais atingida, seguida por United e American
  • A Southwest não foi afetada
  • A Delta demorou muito mais para se recuperar, enquanto as outras companhias voltaram ao normal mais rapidamente

Dados e análise

  • Os dados brutos da ADS-B Exchange foram processados com código que detecta decolagens de aeronaves
  • As decolagens foram consideradas voos para compor as estatísticas

Resumo do GN⁺

  • Este é um artigo que analisa o impacto da grande falha de TI causada pela atualização da CrowdStrike sobre a indústria da aviação
  • Foram apresentadas várias opiniões sobre por que a Delta levou mais tempo do que outras companhias para se recuperar
  • O artigo destaca a importância da estabilidade dos sistemas de TI e dos planos de contingência
  • Como outros projetos com funções semelhantes, são recomendadas ferramentas de gerenciamento e análise de logs como o Splunk

1 comentários

 
GN⁺ 2024-07-30
Comentários no Hacker News
  • O software de rastreamento de tripulação da Delta foi fortemente afetado, e a recuperação levou tempo

  • Isso sugere que muitos computadores não deveriam estar conectados à internet

  • A Delta aparentemente já está se preparando para um processo

  • Artigo dizendo que a Southwest Airlines evitou a interrupção da CrowdStrike e da Microsoft por usar Windows 3.1

  • Há curiosidade sobre por que o aeroporto de Minneapolis-St. Paul sofreu cancelamentos antes de outros aeroportos dos EUA

  • Há dúvidas sobre se planos modernos e bem ensaiados de recuperação de desastres funcionaram, ou se o TI simplesmente não pagou pelos custos de backup e recuperação

  • Há curiosidade sobre a existência de uma análise global

  • O ponto interessante desta interrupção é que os sistemas "PROD" estavam em geral bem, por rodarem principalmente em Linux e software proprietário antigo, enquanto os sistemas "CORP", operando majoritariamente em Windows, foram duramente atingidos

    • Os sistemas bancários não tiveram problemas para movimentar dinheiro, mas os sistemas que interagem com pessoas tiveram problemas
  • O fato de a Delta ter terceirizado capacidades centrais do negócio e economizado ao máximo nos contratos piorou o problema

    • Espera-se que o custo de compensar os clientes seja maior do que o que foi economizado
    • Fonte: comentário no Reddit
  • A Delta não tinha um plano adequado de recuperação de desastres nem um plano de continuidade de negócios de TI

    • UA, AA e F9 executaram imediatamente planos preparados e se recuperaram rapidamente
    • UA e AA tinham planos implementados em toda parte, desde fazendas de servidores e soluções em nuvem até estações de usuário final nos aeroportos
    • A Delta terceirizou grande parte da TI
    • UA e AA não hesitaram em pagar horas extras aos funcionários
    • UA e AA também dependiam de Windows tanto quanto a Delta
    • A AA se recuperou até o fim da sexta-feira e retomou a operação normal no sábado
    • A UA se recuperou cerca de 12 horas depois e retomou a programação normal na tarde de sábado
    • A responsabilidade pelo problema é 100% das decisões de TI da Delta
    • Funcionários de TI de níveis mais baixos provavelmente receberão a maior parte da culpa e das consequências
  • Gostam que "CrowdStrike" agora tenha virado sinônimo de "interrupção global"

    • Não é um nome fofo como "heartbleed", e sim o nome da empresa que causou o problema