- Houve degradação no desempenho de serviços internos na rede global da Cloudflare, afetando vários serviços de forma intermitente
- Serviços principais como Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers sofreram instabilidades temporárias
- A equipe de engenharia identificou o problema e realizou o trabalho de correção, e os serviços WARP e Access foram os primeiros a ser restaurados
- Depois disso, as taxas globais de erro e a latência voltaram gradualmente aos níveis normais, e o serviço de dashboard também foi restaurado
- No momento, todos os serviços estão operando normalmente, e o incidente foi totalmente resolvido
Visão geral do incidente
- A Cloudflare sofreu uma degradação de serviço interno (Internal Service Degradation), com interrupções intermitentes em alguns serviços
- Os serviços afetados incluíram Access, Bot Management, CDN/Cache, Dashboard, Firewall, Network, WARP, Workers
- A empresa iniciou imediatamente o trabalho de recuperação e continuou atualizando o andamento da resolução
Identificação do problema e resposta inicial
- A Cloudflare confirmou a degradação dos serviços internos na fase de investigação (Investigating)
- Alguns clientes tiveram erros intermitentes e lentidão
- A equipe de engenharia trabalhou em paralelo na análise da causa e na recuperação
- Depois, identificou a causa do problema (Identified) e iniciou a correção
- Durante a correção, o acesso ao WARP na região de Londres foi temporariamente desativado, e os usuários dessa região enfrentaram falhas de conexão com a internet
Progresso da recuperação dos serviços
- Após a correção, os serviços Access e WARP foram restaurados primeiro, fazendo a taxa de erros voltar aos níveis anteriores ao incidente
- O acesso ao WARP na região de Londres foi reativado
- Em seguida, foi dado continuidade ao trabalho de restauração dos serviços para clientes de Application Services
- As mudanças para restaurar o serviço de dashboard foram implantadas
- Alguns clientes ainda enfrentaram problemas para fazer login ou usar o dashboard, mas isso foi resolvido com correções adicionais
Estabilização de toda a rede
- Globalmente, as taxas de erro e a latência (latency) diminuíram gradualmente e voltaram aos níveis normais
- Os cálculos de pontuação do Bot Management (bot scores) foram afetados temporariamente, mas se normalizaram durante a recuperação
- A equipe de engenharia removeu os erros restantes e acelerou a recuperação de toda a rede
- Depois disso, todos os serviços passaram a funcionar normalmente, e as taxas de erro e a latência foram totalmente normalizadas
Encerramento do incidente e medidas posteriores
- A Cloudflare confirmou que todos os serviços estão operando normalmente e encerrou o incidente
- No momento, não há mudanças adicionais de configuração, e a plataforma está sendo monitorada de perto
- Está em andamento uma investigação pós-incidente (post-incident investigation) sobre a causa da falha, e os resultados serão divulgados depois
- Esta falha foi registrada como um incidente que afetou toda a rede global
1 comentários
Opiniões no Hacker News
Alguém com um token de API da Cloudflare compartilhou um comando para desativar o proxy da CF
Dá para usar
curlpara buscar o zone ID e os registros DNS e depois fazer uma requisiçãoPATCHdefinindo"proxied": falseMas é preciso cuidado com perda de certificado SSL, queda de segurança/desempenho e risco de exposição do IP do backend
X-Auth-EmaileX-Auth-KeyE quem configurou o acesso para permitir apenas tráfego da Cloudflare precisa desativar essa regra temporariamente
Felizmente agora tudo voltou a ficar online
curla requisição GET é o padrão, então-X GETnão é necessárioSe usar a opção
-d, vira POST automaticamente, e para PATCH o correto é-X PATCHMesmo assim, depois do túnel, alguns sites ainda continuam parcialmente fora do ar
Segundo o CTO da Cloudflare, um bug potencial no sistema de bloqueio de bots saiu de controle após uma mudança de configuração e causou uma falha em toda a rede
Ele explicou na fonte que não foi um ataque, e sim um problema interno
Código e configuração são ambos dados, e o padrão de lançar tudo globalmente de uma vez e causar uma grande indisponibilidade continua se repetindo
Um colega correu até mim de repente dizendo que, logo depois de mudar uma configuração na Cloudflare, o site caiu e ele entrou em pânico achando que tinha quebrado tudo
Disse que ficou aliviado ao ver este post
Quando vi a mensagem “Cloudflare down”, senti um alívio genuíno
Verifiquei da Holanda e quase todos os serviços estavam fora do ar
O dashboard da Cloudflare também estava inacessível, assim como o dashboard da Betterstack
Ironicamente, a página de status estava no ar, então a situação era de não conseguir avisar os clientes
Escrevi um post no blog dizendo: “se não precisa, não coloque atrás da Cloudflare”
Ainda assim, quando acontece uma pane desse porte, os clientes às vezes mostram uma compreensão inesperada
Levou alguns minutos, mas consegui desvincular o hcker.news da CF
coloquei embaixo um widget de uptime em tempo real ligado a uma página de status externa
Dá para usar como referência o SVG de status e a página de status externa
Quando a Cloudflare ou a AWS param, há um certo prazer em ver meus serviços self-hosted funcionando perfeitamente
Neste momento, eu estou mais estável do que os 99,999% de disponibilidade deles
Agora estou pensando em instalar um rastreador de uptime
É uma lição que startups SaaS deveriam aprender
É engraçado, mas também estranhamente satisfatório, que meu site pequeno tenha saído do ar
Ultimamente parece que as grandes falhas de infraestrutura aumentaram muito. Tanto AWS quanto Cloudflare estão bem abaixo do SLA
Não é uptime real, e sim um número definido arbitrariamente pela empresa
Quando a Cloudflare ou a AWS param, metade da web para; o problema da centralização é sério
Esse é um dos motivos de a estrutura não mudar
CDNs pequenas têm dificuldade para competir, e no fim se forma uma estrutura de monopólio natural
O plano gratuito da Cloudflare fazia parte dessa estratégia para explorar esse efeito de rede
Além disso, pode virar um alvo concentrado para censura governamental
Dois terços da web dependem dela, a duração dos certificados está cada vez menor e, se houver um hack ou indisponibilidade, a web inteira pode travar
Hoje é uma organização bem-intencionada, mas não dá para esquecer que o Google do passado também parecia assim
Há muitos backups no nível de software, mas o bom senso de multi-hosting no nível da infraestrutura foi se perdendo
Ironicamente, o DownDetector também usa Cloudflare Turnstile e caiu junto
A mensagem visual de desculpas da Cloudflare — “Your browser: Working / Host: Working / Cloudflare: Error” — chamou atenção
Sites que usam o Cloudflare Challenge (“I’m not a robot”) também pararam com erro HTTP 500
Aparecia a mensagem para “desbloquear challenges.cloudflare.com”
ou mostram uma tela de carregamento infinito. Na prática, o backend retorna um erro claro, mas o frontend esconde isso
Recentemente até vi um caso em que o erro de senha longa demais era mostrado como “este e-mail já está em uso”
Ironicamente, acabou virando uma situação em que a IA exige que você prove que é humano
É engraçada essa negação em tom de /s de que o Captcha da Cloudflare jamais poderia cair