GitHub: Falha nas operações Git

(githubstatus.com)

3 pontos por GN⁺ 2025-11-20 | 1 comentários | Compartilhar no WhatsApp

Em 18 de novembro de 2025 (UTC), o GitHub sofreu uma falha em todas as operações Git, interrompendo clientes SSH·HTTP e o acesso a arquivos brutos
A causa do problema foi identificada como a expiração de um certificado TLS usado na comunicação entre serviços internos
O GitHub substituiu o certificado expirado e reiniciou os serviços afetados, concluindo a recuperação total
Depois disso, a empresa está reforçando os alertas de monitoramento de expiração de certificados e avançando na migração para automação para eliminar certificados gerenciados manualmente
Esta indisponibilidade afetou as Git Operations e o Codespaces do GitHub, e após a recuperação todos os serviços voltaram ao estado normal

Relatório de falha nas operações Git

Entre 20:30 e 21:34 UTC de 18 de novembro de 2025, o GitHub sofreu uma falha em todas as operações Git
- As interações de clientes Git via SSH e HTTP, bem como o acesso a arquivos brutos, foram afetados
- Produtos que dependem de operações Git também sofreram a mesma indisponibilidade
A causa foi identificada como um certificado TLS expirado usado na comunicação entre serviços internos
- O GitHub resolveu o problema substituindo o certificado e reiniciando os serviços afetados
- Após a reinicialização dos serviços, a recuperação completa foi concluída
Publicidade
Para evitar o mesmo problema no futuro, o GitHub está reforçando o sistema de alertas de expiração de certificados
- Também está realizando monitoramento e verificações de automação em outros certificados da área relacionada
- Está acelerando a eliminação dos certificados ainda gerenciados manualmente e a criação de um sistema automatizado de comunicação entre serviços

Andamento da falha e etapas de recuperação

20:39 UTC: reportada degradação de disponibilidade em operações Git e no Codespaces
20:52 UTC: confirmada falha em algumas operações Git via HTTP
21:11 UTC: confirmada falha em todas as operações Git
21:25 UTC: degradação de disponibilidade no Codespaces continua
21:27 UTC: causa identificada, correção em andamento
21:36 UTC: após a implantação da correção, início da recuperação parcial
21:55 UTC: todos os serviços normalizados, recuperação do Codespaces concluída
21:56 UTC: confirmada a operação normal das operações Git
21:59 UTC: encerramento do incidente e publicação do relatório

Serviços afetados

Git Operations
- Conjunto geral de operações Git baseadas em SSH e HTTP
Publicidade
Codespaces
- Houve degradação temporária de disponibilidade

Ações de acompanhamento

Reforço no monitoramento de expiração de certificados e na automação
- Estabelecimento de um sistema de alertas preventivos antes da expiração
- Verificação dos processos de renovação automática de todos os certificados internos
Ampliação da automação de segurança e operação
- Eliminação do gerenciamento manual de certificados
- Criação de comunicação automatizada entre serviços em conformidade com as práticas modernas de segurança

1 comentários

GN⁺ 2025-11-20

Comentários do Hacker News

É preocupante como as principais falhas em sistemas de software parecem estar acontecendo com frequência demais
No ano passado, houve apenas quatro incidentes que afetaram meu trabalho, mas neste trimestre já estamos no quarto
Dá a sensação de que a resiliência do software de rede está desaparecendo aos poucos
Nossa equipe usa uma arquitetura monolítica, mas tem muitas dependências como Redis, S3 e serviços externos de integração
Por isso, documentamos as condições de falha, reforçamos a automação de testes e deploy e simplificamos a infraestrutura, inclusive migrando da nuvem para VPS
Como resultado, o sistema ficou muito mais estável e previsível
Sem esse tipo de trabalho chato, mas essencial, a complexidade só teria aumentado e o sistema ficaria ainda mais frágil
Os incidentes recentes que enfrentei foram AWS us-east-1, Azure Front Door, Cloudflare e agora o GitHub
- No fim, acho que o problema é dinheiro
  Os clientes não querem gastar com resiliência nem infraestrutura redundante
  Desde 2008 trabalhei em mais de dez projetos, e na maioria a postura era basicamente “vamos deixar na mão da sorte”
- Concordo. O corte de custos está levando ao resultado de “esquecermos como construir sistemas que aguentam falhas”
- Falando de forma deliberadamente provocativa, acho que o aumento do uso de LLMs também contribui para esse fenômeno
Git é um sistema de controle de versão distribuído, então ainda dá para trabalhar sem o GitHub
O GitHub é apenas um hub conveniente
- Mas, se a empresa depende totalmente do GitHub Actions, fica completamente travada como agora
- É uma situação tipo “esta escada rolante está temporariamente funcionando como escada. Pedimos desculpas pelo inconveniente”
- A essência do problema é que o GitHub caiu, não o git em si
- Sem o GitHub, perde-se a função de hub de colaboração com outras pessoas
- O motivo de estarmos no Hacker News agora é que não estamos conseguindo trabalhar
A falta de confiabilidade do GitHub parece séria
Para quem depende de CI/CD, isso é fatal
Internamente, parece que tratam isso só como “o CI/CD do nosso time quebrou”, sem a perspectiva de que “metade do mundo parou”
Essa cultura de silos e a atitude de “não é problema nosso” acabam levando à queda de confiabilidade
Além disso, por causa da posição dominante, os clientes acabam tendo que engolir isso
É a mesma postura de “você não tem para onde ir mesmo” que eu já vi antes na Verio e na Verisign
Fico me perguntando se as falhas em cloud/SaaS estão realmente mais frequentes hoje em dia
Não sei se é só porque há mais cobertura ou se a frequência de fato aumentou
Será que isso tem a ver com cortes de orçamento, redução de pessoal, adoção de IA ou crescimento excessivo?
- A Microsoft parece acreditar que isso se resolveria se migrasse o GitHub para o Azure
- Pelo tempo que uso, sinto claramente um aumento na frequência das falhas
  Antes era uma ou duas vezes por ano; hoje em dia é quase todo mês, e recentemente quase toda semana
- Alguém disse, durante a falha da Cloudflare, que a “cultura de programação baseada em IA” está agravando esse tipo de problema
  Pequenos trechos de código gerados por IA podem causar falhas em efeito dominó
- Como em um artigo da Techrights,
  acho que demissões em massa afetaram a confiabilidade
- Por causa do FOMO causado pela IA, os cronogramas dos projetos ficam ainda mais apertados,
  e parece que os últimos 10% do trabalho de estabilidade acabam sendo ignorados
Quando não consegui fazer push, no começo achei que o problema era meu
No fim, resolvi desistir hoje e tentar de novo amanhã
- A autenticação funcionava, mas o push não, e foi uma experiência realmente de arrancar os cabelos
- Nem adicionar uma nova chave SSH resolveu. No começo só apareciam erros estranhos e depois veio a mensagem “upstream unhealthy”
- Eu também quase acabei reconfigurando tudo do zero
Eu já não estava com vontade de trabalhar hoje, e depois da Cloudflare agora o GitHub também caiu, então parece um sinal para simplesmente descansar
- O problema é essa dependência tecnológica centralizada nos EUA
  Precisamos de mais soberania tecnológica e descentralização
Entre os serviços que usei nos últimos 5 anos, o GitHub foi o mais instável
Fico curioso se o GitLab é melhor. Minha confiança no GitHub agora está praticamente em zero
- Na nossa empresa usamos GitLab self-hosted, mas o servidor Gitaly cai com frequência
  Parece ser por causa do ambiente com monorepo grande, mas claramente há problemas de escalabilidade
- O GitLab tem muitos recursos, mas a integração é meio desajeitada e o acabamento deixa a desejar
  Mesmo assim, é uma vantagem ter repositório, CI/CD, issues e wiki em um só lugar
- Uso tanto GitHub.com quanto GitLab self-hosted,
  e o GitHub é vulnerável a falhas de nuvem, enquanto o GitLab sofre bastante com interrupções em upgrades automáticos
  Cada um tem seus prós e contras
- O problema do GitLab é que ele é lento e pesado
  Ele carrega vários MB de JS, então em redes lentas as páginas quase nem abrem
- Em on-premises, dá para garantir o nível de estabilidade que você quiser
Em situações de emergência, dá para editar arquivos diretamente pela interface web do GitHub
Mas o actions/checkout@v4 do GH Actions não está funcionando agora por causa do problema com git
- Na verdade, é possível fazer git push/pull por qualquer host com SSH habilitado
- A gente também estava no meio de um hotfix em produção e ficou bloqueado. Não sei o que está acontecendo com a internet ultimamente
- O CircleCI também está falhando em operações git por problemas para reconhecer chaves SSH do GitHub
- Desta vez, a IA do GitHub mandou verificar o githubstatus.com, então surpreendentemente ajudou
- Fico curioso se dá para criar branches pela interface do GitHub
Ao longo dos últimos 10 anos, alternando entre grandes empresas e startups, vi um padrão recorrente
startup → atendimento a clientes enterprise → redesenho complexo → idealismo → busca por lucro → produto inchado → saída de engenheiros-chave → queda de qualidade
Esse ciclo também se repete nas grandes empresas de cloud (AWS, Cloudflare, GCP etc.)
Internamente, cada serviço também é dividido em pequenas unidades de negócio que operam com foco em lucro
No fim, até a infraestrutura básica está sendo enfraquecida pela pressão por rentabilidade
Acho perigosa a crença de que “AWS ou GCP são grandes demais para falhar”
- Concordo. No processo de atender clientes enterprise, é inevitável que o produto fique mais complexo e lento
  Mas a dívida técnica e os problemas de segurança das startups iniciais também eram sérios
  No fim, é natural que as rachaduras do sistema apareçam durante o crescimento em larga escala
A página de status do GitHub voltou a mostrar a frase “alguns usuários podem estar enfrentando problemas”
Mas, na prática, não é só HTTPS: todo push via SSH também está falhando
- Parece que os responsáveis pela página de status não conseguem sair da expressão “alguns usuários”
  Uma divulgação transparente, em vez desse eufemismo de RP, aumentaria mais a confiança
  Além disso, as atualizações da página de status muitas vezes também demoram
- Um amigo meu disse que conseguiu fazer push por um instante, mas a maioria continua em estado de erro fatal

GitHub: Falha nas operações Git

Relatório de falha nas operações Git

Andamento da falha e etapas de recuperação

Serviços afetados

Ações de acompanhamento

Leituras relacionadas

1 comentários

Comentários do Hacker News