15 pontos por xguru 2021-10-06 | 2 comentários | Compartilhar no WhatsApp
  • Artigo da CloudFlare com uma análise externa sobre por que os serviços relacionados ao Facebook ficaram inacessíveis em 4/10

  • A falha começava já na consulta de DNS, e a conexão por IP com toda a infraestrutura relacionada ao Facebook havia sido interrompida

  • O anúncio oficial do Facebook foi:

→ "O problema ocorreu durante uma mudança de configuração nos roteadores de backbone que coordenam o tráfego de rede entre os data centers. Isso afetou em cadeia a conectividade entre os data centers e interrompeu os serviços"

→ Os servidores DNS normalmente anunciam sua presença via BGP, mas os servidores DNS do Facebook estavam configurados para desativar o BGP caso perdessem a conexão com os data centers do Facebook

→ Quando o backbone entre os data centers caiu, eles passaram a recusar as solicitações BGP, tornando impossível acessar os servidores DNS

→ Por causa disso, tornou-se impossível acessar todos os servidores do Facebook

→ Na prática, até o acesso ao próprio data center ficou difícil, e os engenheiros tiveram de ir ao local para resolver o problema

  • O problema aconteceu como se alguém tivesse desconectado o cabo de internet do data center do Facebook

  • Não foi um problema de DNS, mas o erro de DNS foi o primeiro sintoma da interrupção em larga escala

  • BGP (Border Gateway Protocol)

→ Mecanismo pelo qual os AS (Autonomous Systems) da internet trocam informações de roteamento

→ Grandes roteadores compartilham continuamente informações de roteamento para gerenciar a chegada à informação final

→ Se o Facebook não anunciar sua própria existência para a rede, ele se torna inacessível

→ Cada rede tem um ASN (Number) e anuncia os prefixos dos IPs que administra

  • A partir de 15:40 UTC de 4/10, o Facebook parou de anunciar seus prefixos de DNS

→ Como no problema citado pelo próprio Facebook acima, ele deixou de enviar anúncios BGP, tornando o acesso impossível

→ Isso alterou o roteamento e gerou atualizações de BGP em larga escala

→ Todos os servidores DNS passaram a retornar SERVFAIL para as URLs do Facebook

→ As consultas DNS começaram a aumentar 30x

→ Também houve aumento nas consultas DNS para Twitter, Signal e Telegram

  • Às 21:00 UTC, o BGP foi atualizado novamente e tudo voltou ao normal

2 comentários

 
roxie 2021-10-06

Uma indisponibilidade de 5 horas no Facebook... realmente foi um grande incidente.

 
xguru 2021-10-06