Várias falhas de serviço na região us-east-1 da AWS
(health.aws.amazon.com)- Diversos serviços no us-east-1 da AWS apresentaram interrupção
- Empresas que usam infraestrutura em nuvem relataram interrupção de serviço por causa do incidente
- Foram reportados problemas de disponibilidade em serviços principais como API Gateway, Lambda
- Engenheiros destacaram a necessidade de preparar rotas alternativas e revisar planos de contingência
- O AWS Health Dashboard passou a fornecer informações e atualizações de incidente em tempo real
Visão geral da interrupção na região AWS us-east-1
- Em 21 de outubro de 2025, o AWS Health Dashboard reportou falhas em vários serviços da região us-east-1
- Serviços críticos como API Gateway, Lambda, S3 foram afetados, e muitos clientes sofreram interrupção de serviço
- Desde o início da falha, a AWS iniciou imediatamente a análise de causa raiz e os trabalhos de recuperação
- Empresas de SaaS, startups e TI dependentes dessa região relataram atraso de serviço e downtime
- Engenheiros e gerentes de TI destacaram a necessidade de criar rotas de contingência e estratégias de múltiplas regiões para serviços críticos
Impacto e resposta
- A região us-east-1 é uma das áreas com maior tráfego na infraestrutura de nuvem global, então o impacto é muito grande em caso de falha
- Na prática, vários clientes relataram problemas simultâneos, como interrupção da prestação de serviço, latência de resposta da API e falha de processamento de dados
- A AWS informou o status em tempo real e forneceu documentação de suporte e atualizações por meio do Health Dashboard
- Times de TI de clientes agiram para minimizar danos por meio de monitoramento da situação de falha, alternativas temporárias e avisos aos usuários
Implicações para engenheiros
- A ocorrência reforçou a necessidade de validar a importância de sistemas de monitoramento e sistemas de notificação de incidentes
- O valor do projeto de arquiteturas resilientes como implantação multi-região, mitigação de falhas automatizada e estratégias de backup ficou evidenciado
- O AWS Health Dashboard é utilizado como ferramenta para obter informações rapidamente e apoiar decisões em situações de falha
Conclusão
- Operadores de serviços de nuvem em grande escala precisam preparar contramedidas para a possibilidade de interrupção de serviço de forma essencial
- A importância de um processo de recuperação ágil, comunicação transparente e capacidade eficaz de resposta a incidentes de infraestrutura foi novamente destacada durante a falha
1 comentários
Opinião no Hacker News
/etc/hostsimplantado no Kubernetes de forma global com facilidade, e foi preciso fazer isso na prática. Normalmente não usamos/etc/hostspara esse tipo de situação, mas como hotfix foi uma abstração muito adequada.Lambda create-functionainda falham comInternalError. Outros serviços (Lambda, SNS, SQS, EFS, EBS, CloudFront) foram restaurados. Eu curso mestrado em Ciência da Computação com foco em disponibilidade em nuvem, então testei isso em várias contas AWS e registrei o cronograma do impacto em um texto. Post de análise