Entendendo como o Facebook desapareceu em 4/10
(blog.cloudflare.com)-
Artigo da CloudFlare com uma análise externa sobre por que os serviços relacionados ao Facebook ficaram inacessíveis em 4/10
-
A falha começava já na consulta de DNS, e a conexão por IP com toda a infraestrutura relacionada ao Facebook havia sido interrompida
-
O anúncio oficial do Facebook foi:
→ "O problema ocorreu durante uma mudança de configuração nos roteadores de backbone que coordenam o tráfego de rede entre os data centers. Isso afetou em cadeia a conectividade entre os data centers e interrompeu os serviços"
→ Os servidores DNS normalmente anunciam sua presença via BGP, mas os servidores DNS do Facebook estavam configurados para desativar o BGP caso perdessem a conexão com os data centers do Facebook
→ Quando o backbone entre os data centers caiu, eles passaram a recusar as solicitações BGP, tornando impossível acessar os servidores DNS
→ Por causa disso, tornou-se impossível acessar todos os servidores do Facebook
→ Na prática, até o acesso ao próprio data center ficou difícil, e os engenheiros tiveram de ir ao local para resolver o problema
-
O problema aconteceu como se alguém tivesse desconectado o cabo de internet do data center do Facebook
-
Não foi um problema de DNS, mas o erro de DNS foi o primeiro sintoma da interrupção em larga escala
-
BGP (Border Gateway Protocol)
→ Mecanismo pelo qual os AS (Autonomous Systems) da internet trocam informações de roteamento
→ Grandes roteadores compartilham continuamente informações de roteamento para gerenciar a chegada à informação final
→ Se o Facebook não anunciar sua própria existência para a rede, ele se torna inacessível
→ Cada rede tem um ASN (Number) e anuncia os prefixos dos IPs que administra
- A partir de 15:40 UTC de 4/10, o Facebook parou de anunciar seus prefixos de DNS
→ Como no problema citado pelo próprio Facebook acima, ele deixou de enviar anúncios BGP, tornando o acesso impossível
→ Isso alterou o roteamento e gerou atualizações de BGP em larga escala
→ Todos os servidores DNS passaram a retornar SERVFAIL para as URLs do Facebook
→ As consultas DNS começaram a aumentar 30x
→ Também houve aumento nas consultas DNS para Twitter, Signal e Telegram
- Às 21:00 UTC, o BGP foi atualizado novamente e tudo voltou ao normal
2 comentários
Uma indisponibilidade de 5 horas no Facebook... realmente foi um grande incidente.
O BGP é seguro? https://pt.news.hada.io/topic?id=1932
Análise da queda da internet da CenturyLink/Level(3) em 30 de agosto https://pt.news.hada.io/topic?id=2746