- A análise de incidentes recentes em aeronaves da família A320 confirmou que a intensa radiação solar pode danificar dados críticos essenciais ao controle de voo.
- A Airbus identificou, por isso, que uma parte significativa de aeronaves da linha A320 em operação pode ser afetada.
- Em resposta, a empresa emitiu um Alert Operators Transmission (AOT) em cooperação com as autoridades de aviação, para implementar medidas preventivas imediatas; isso deverá ser refletido como Diretiva de Aeronavegabilidade de Emergência (Emergency Airworthiness Directive) da EASA.
- A Airbus reconhece que essas ações podem causar interrupções no cronograma de operação de passageiros e clientes e está colaborando de perto com as companhias aéreas para responder ao problema.
- A prioridade máxima de todas as medidas é a garantia da segurança da aviação.
Visão geral das medidas preventivas da família A320
- Na análise de incidentes recentes envolvendo aeronaves da família A320, foi revelado que a radiação solar intensa (intense solar radiation) pode danificar dados críticos do sistema de controle de voo.
- Esse fenômeno pode afetar a integridade dos dados necessários às funções de flight controls.
- A Airbus concluiu que um número considerável de aeronaves A320 atualmente em operação pode ser afetado por esse problema.
Medidas preventivas e cooperação com autoridades
- A Airbus emitiu um Alert Operators Transmission (AOT) para implantar imediatamente medidas preventivas em cooperação com as autoridades aeronáuticas.
- O AOT inclui diretrizes para a aplicação de medidas de proteção de software e/ou hardware para garantir a operação segura da aeronave.
- Essas ações devem ser refletidas formalmente na Diretiva de Aeronavegabilidade de Emergência (Emergency Airworthiness Directive) da Agência Europeia de Segurança da Aviação (EASA).
Impacto operacional e resposta
- A Airbus reconhece que a ação pode gerar atrasos e interrupções em parte dos cronogramas de voo dos passageiros e clientes.
- A empresa está cooperando de perto com as companhias aéreas para apoiar a implementação das medidas, mantendo a segurança como prioridade máxima.
- A Airbus expressou suas desculpas pela inconveniência causada.
Material relacionado
- Existe um documento PDF (126.02 KB) com o mesmo conteúdo do comunicado à imprensa.
- Título do documento: Airbus update on A320 Family precautionary fleet action
- O link de download está publicado no site oficial
1 comentários
Comentário do Hacker News
Fico realmente curioso sobre em qual família de microcontroladores esse problema foi encontrado
Se isso for um processador de segurança usando lockstep, ECC etc., então significa que ocorreu um bit flip em um nível que o ECC não consegue detectar
Se houve corrupção de dados, pode não ter sido apenas um simples reinício, mas uma situação em que vários bits foram invertidos ao mesmo tempo dentro de uma palavra
Se o ambiente não era especialmente diferente, também pode ter havido alguma redução em coisas como margem de tensão
Também queria saber se era NVM ou SRAM
Não era um MCU, mas um sistema composto por vários chips, projetado nos anos 90, e só em 2002 surgiu uma nova versão de hardware com EDAC adicionado
Nessa situação, bit flips poderiam perfeitamente acontecer
Mais detalhes estão no relatório da ATSB
O problema era especialmente com flash de xenônio
Dá para ver casos relacionados no post do fórum, discussão adicional, blog oficial e vídeo no YouTube
Satélites operam em altitudes muito maiores que um A320 e a maioria usa Triple Modular Redundancy
Veja explicação de TMR e conceito de SEU
A NASA aumenta N para 5 em voos tripulados
Também há métodos como desativar completamente o cache ou fazer refresh contínuo de RAM com ECC
Existem ainda medidas de hardware para evitar latch-up em circuitos digitais
Depois de muito tempo na indústria de computadores, você acaba vendo vários desses casos de bit flip
O ECC salva na maioria das vezes, mas às vezes o software também é projetado para detectar e ignorar valores anômalos
Em sistemas de tempo real e críticos para a segurança, vários sistemas também podem validar erros por votação
Nos anos 90, já passei meses sofrendo por causa de bit flips em linhas de cache da CPU
Em um serviço que processava tráfego em grande escala, resumimos valores em formato de enum e encontramos alguns valores impossíveis
Ao ver que a string havia sido registrada de forma incorreta com exatamente um bit de diferença, estimamos que poderia ser efeito de raios cósmicos
Na prática, era um bug reproduzível, mas só depois de suspeitar do kernel, dos drivers e do cliente ele admitiu o próprio erro
Ainda assim, era um gênio, e no caso deste incidente com o A320 talvez ele realmente estivesse certo
Há mais detalhes técnicos em The Aviation Herald
“No pior caso, essa vulnerabilidade pode causar movimento não comandado do profundor, excedendo os limites estruturais da aeronave”
A indústria aeroespacial já vem preparando contramedidas para bit flips há muito tempo
A correção da Airbus/Thales desta vez reforça a verificação de erros e reinicia automaticamente o componente com problema
Mais detalhes estão no relatório da BEA
Tem um pouco de estilo BoFH nisso
“Cheguei cedo ao trabalho numa sexta de manhã e o telefone toca. Viro a folha de desculpas e vejo ‘erupções solares’ olhando para mim…”
Link
Fico curioso sobre como este caso foi diagnosticado
Não sei se o FDR (gravador de dados de voo) registra erros de baixo nível ou apenas valores de entrada de alto nível
Se foi um bit flip causado por radiação, como descobriram isso?
Também fico curioso se algo como um erro de votação entre os computadores principais de voo pode ter sido registrado
Há um excelente relatório de análise pós-incidente sobre um caso semelhante de SEU (single-event upset)
É o tipo de reação em forma de piada: “voou perto demais do sol”
Fico em dúvida se seria mesmo necessário paralisar a frota inteira por causa disso
Se foi um único incidente entre dezenas de milhares de aeronaves ao longo de vários anos, talvez não bastasse dar um prazo de uns dois meses para corrigir?
A solução é fazer downgrade ou substituir pelo hardware da versão anterior
Do ponto de vista da Airbus, a perda direta com a paralisação é pequena, mas, se acontecer um acidente, o risco de reputação e de processos é muito maior
Algo como: “nós agimos de forma preventiva, enquanto a concorrência só reage depois de acidentes”
Segundo a cobertura da imprensa, esta medida é um rollback de atualização de software
Fico curioso sobre qual era o objetivo da atualização original e sobre com que frequência o software dos computadores de voo é atualizado