3 pontos por GN⁺ 27 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Um ex-engenheiro descreve em detalhes como o acúmulo de decisões irreais dentro do Microsoft Azure Core levou ao caos técnico e ao colapso da confiança
  • Entre os principais problemas apontados estão um plano de portar recursos do Windows ignorando restrições de hardware e a proliferação de 173 agentes de gerenciamento
  • Essa estrutura complexa sustenta workloads críticos como OpenAI, Anthropic e nuvem governamental, criando o risco de que uma única falha se espalhe como uma interrupção global
  • Diante da falta de resposta da liderança, ocorreram desdobramentos como a deterioração da relação com a OpenAI, a perda de confiança do governo dos EUA e o atraso no lançamento de recursos
  • Como resultado, isso teria levado ao desaparecimento de US$ 1 trilhão em valor de mercado, reforçando a importância de reconhecer a realidade técnica e manter a simplicidade na operação de infraestrutura de nuvem

Registro interno do colapso de confiança no Azure

  • Memórias de um ex-engenheiro sobre o processo interno de decisões irreais na equipe Microsoft Azure Core e a confusão técnica e organizacional resultante
  • Já no primeiro dia na equipe de P&D Overlake, ele testemunhou discussões sobre um plano de portar funcionalidades do Windows ignorando limitações de hardware
  • Havia 173 agentes de gerenciamento, mas a complexidade e a opacidade eram tão graves que ninguém parecia saber exatamente sua função ou necessidade
  • Essa estrutura sustenta workloads essenciais, como OpenAI, Anthropic e nuvens governamentais, o que cria o risco de que um único erro provoque uma falha global
  • O autor afirma que isso acabou levando à perda de confiança da OpenAI, à desconfiança pública do Departamento de Defesa dos EUA e ao desaparecimento de US$ 1 trilhão em valor de mercado

Entrada no Azure Core e situação inicial

  • Em 1º de maio de 2023, ele entrou como engenheiro sênior na equipe de P&D Overlake, responsável pelo cartão de offload Azure Boost e aceleradores de rede
  • Antes disso, havia participado das equipes do Windows e do Core OS, trabalhando em melhorias de kernel e desenvolvimento de plataforma de contêineres, contribuindo para tecnologias centrais como Docker, AKS, App Services e Windows Sandbox
  • Também participou do projeto inicial do cartão Overlake (2020~2021), propondo um protocolo de comunicação entre o sistema operacional host e o cartão acelerador
  • Retornou como um especialista que havia operado e desenvolvido diretamente a plataforma Azure por mais de 10 anos

O plano irreal visto na primeira reunião

  • No primeiro dia, durante a reunião mensal de planejamento da equipe, ele confirmou a existência de um plano para portar componentes do Windows para o cartão Overlake
  • Apesar de o cartão Overlake ter capacidade de RAM e orçamento de energia extremamente limitados, a equipe discutia a tentativa de migrar recursos do Windows
  • Era um plano impossível dadas as especificações de hardware, e chegou-se até a sugerir: “vamos deixar alguns desenvolvedores juniores tentarem”
  • A organização considerava seriamente a direção de portar o Windows para Linux para manter agentes de gerenciamento de VM
  • O autor descreve isso como um “plano desconectado da realidade” e concluiu que toda a organização havia iniciado uma marcha rumo a um objetivo impossível

Limitações técnicas e problemas estruturais

  • Na época, a stack conseguia processar apenas algumas dezenas de VMs em uma CPU Xeon de 400W, bem abaixo do limite de 1.024 VMs do hipervisor
  • Havia também problemas de degradação de desempenho, como jitter nas VMs dos clientes, causados pelo uso excessivo de recursos
  • O plano de portar e escalar essa stack ineficiente para um pequeno SoC ARM era tecnicamente inviável
  • O autor resume dizendo que “mais urgente do que aprender uma nova tecnologia era trazer toda a organização de volta à realidade”

Conversas internas sobre Azure Linux e Overlake

  • Em uma conversa de 90 minutos com o responsável pelo Linux System Group, ele confirmou que 173 agentes haviam sido designados como candidatos a port para o cartão Overlake
  • Após investigar, constatou que ninguém dentro da Microsoft conseguia explicar claramente o papel, as interações ou o motivo de existência desses 173 agentes
  • O núcleo do Azure é composto por VM, rede e armazenamento, e os demais serviços são construídos sobre isso, mas a complexidade desnecessária foi se acumulando
  • Esse conjunto incontrolável de componentes é o que gerencia workloads importantes como OpenAI, Anthropic e nuvens governamentais

Perda de confiança e consequências posteriores

  • Essa estrutura complexa estava em um estado capaz de causar riscos graves à segurança nacional e à continuidade dos negócios
  • As cartas enviadas depois ao CEO, ao conselho de administração e ao EVP da divisão Cloud+AI terminaram todas sem resposta
  • Como consequência, teriam ocorrido a deterioração da relação com a OpenAI, o colapso da confiança do governo dos EUA (com declarações públicas do secretário de Defesa), desperdício de engenharia e ordens de migração para Rust, além de atrasos no lançamento de recursos
  • O autor define isso como um “evento que evaporou US$ 1 trilhão em valor de mercado” e alerta empresas que usam Azure sobre os riscos de depender dele em ambientes de produção

Conclusão

  • O texto expõe como o acúmulo de complexidade técnica, má gestão e decisões irreais dentro do Azure levou à perda de confiança
  • É um caso de uma organização responsável por infraestrutura crítica que perdeu o senso de realidade e continuou marchando rumo a uma falha estrutural
  • Destaca-se a importância da estabilidade e da simplicidade na infraestrutura de nuvem, bem como da manutenção do discernimento técnico dentro das organizações

1 comentários

 
GN⁺ 27 일 전
Comentários do Hacker News
  • Como alguém que usa o Azure todos os dias, se essa denúncia for verdadeira, parece que muita coisa finalmente faz sentido
    A UI é mal-acabada, a documentação é imprecisa, como se tivesse sido escrita por IA, e há tantos tipos de serviço que nem dá para saber qual usar
    É difícil configurar sem ajuda de consultores e, mesmo depois de configurar, não dá para ter certeza de que está funcionando direito
    Sinceramente, é impressionante que isso ainda esteja de pé

    • Antigamente eu admirava a documentação do Azure, mas depois de uma semana implementando, falhei completamente porque, no ambiente de teste, a GraphAPI não funcionava como a documentação dizia
      Desde então, não confio mais na documentação
    • Trabalhei com consultores de Azure, e eles também odeiam o Azure
    • A gerência decidiu migrar para AKS porque havia muitos créditos, mas os pods travavam aleatoriamente e a latência de disco dos nós de banco de dados disparou
      Um serviço que rodava de forma estável no GCP ficou imprevisível
  • Já vi o Azure OpenAI vazar respostas de prompts de outros clientes quando está sob carga
    Há até um tweet relacionado
    Mas parece que ninguém se importa

    • Fico curioso sobre o que exatamente significa “Azure OpenAI” — GitHub Copilot, Microsoft Copilot, OpenAI API ou algum LLM hospedado no Azure?
      A situação parece um completo velho oeste
  • Fiquei surpreso com o nível de detalhe das alegações deste texto
    Dá curiosidade saber se é um denunciante interno ou só um ex-funcionário ressentido
    A parte de ter reportado diretamente ao CEO e ao conselho chamou especialmente a atenção
    Parece estranho que esse tipo de procedimento seja “de praxe” na cultura corporativa americana
    Gostaria de saber, pela experiência real de usuários, se o Azure é mesmo tão instável assim

    • Na prática, eu opero AWS, Azure e GCP como SRE, e 80% a 90% dos incidentes acontecem no Azure
      O Azure não percebe o problema, não sabe a causa e parece que nem se importa
      O time inteiro odeia o Azure
    • O Azure tem problemas demais de consistência e race conditions
      Fiquei feliz quando o AWS Bedrock passou a permitir usar modelos da OpenAI, porque assim dava para evitar o Azure
      A confiabilidade continua sendo um problema gravíssimo
    • Grandes empresas frequentemente tomam decisões que sacrificam qualidade em troca de métricas de curto prazo
      A estratégia de “lançar rápido e consertar depois” acaba levando exatamente a esse tipo de resultado
    • Já vi um relatório de segurança sobre uma fuga de container no Azure que descobriu uma vulnerabilidade no controlador de gerenciamento
      Desde então, deixei de confiar
    • Mesmo com créditos grátis, acho melhor pagar por AWS ou GCP
  • O texto parece um tanto emocional e exagerado, o que dá a impressão de que a intenção original se perdeu
    A estrutura interna de cargos do Azure ou problemas de nível Sev2 não são nada tão incomum
    O Azure tem problemas, mas, dada a escala, é natural que existam partes ásperas
    A verdadeira maturidade, na minha opinião, é tentar melhorar o sistema por dentro

    • Mandar uma carta diretamente ao conselho é uma atitude que nunca tende a terminar bem dentro de uma organização
      O Azure pode ser uma bagunça, mas a abordagem do autor também pode ter sido parte do problema
    • AWS e GCP têm UX/DX muito melhores, e o Azure nem te diz por que não funciona
      Minha impressão do Azure é totalmente negativa
    • A Microsoft é a solução padrão em órgãos governamentais, mas propor uma reescrita total não é realista
      A abordagem do autor acaba reduzindo ainda mais a credibilidade
    • É surpreendente a estrutura em que pessoas de nível mais baixo, mencionadas pelo autor, estavam encarregadas de sistemas centrais
    • Há muita gente “gritando que tudo está quebrado”, mas isso também pode ser um problema organizacional já normalizado
      A frequência com que novos funcionários soltam um “wtf/day” parece quase um indicador de saúde organizacional
      Mesmo de fora, o Azure parece ter a qualidade no fundo do poço
      Na pressa de alcançar a AWS, foram despejando recursos às pressas e acabaram presos num enorme pântano de dívida técnica
      Até recursos básicos como IPv6, azcopy e upgrades de VM continuam instáveis
  • Um ex-colega usa Azure todos os dias, e toda vez que ouço as explosões de reclamação dele, entendo melhor o conteúdo deste texto
    Quando escolhi me especializar em nuvem, 12 anos atrás, experimentei Azure rapidamente e achei uma plataforma lenta e quebrada; este texto confirma aquela impressão

  • Na parte final, achei marcante o trecho dizendo que a Microsoft demitiu 15.000 pessoas em 2025
    Parece um exemplo da realidade por trás do boom da IA

    • Mas acho que essa parte é um argumento fraco no texto
      O contrato com a OpenAI era uma questão de capacidade de GPU, e as demissões são outra coisa
      O problema real é a rotatividade de engenheiros e a ausência de responsabilidade
      Gente nova entra em cada projeto, e o senso de dono desaparece
  • A parte que diz que, se o host for comprometido, é possível acessar toda a memória das VMs soa extremamente perigosa

    • Nem consigo imaginar em que ambiente alguém achou que essa arquitetura era uma boa ideia
    • Não sei o que o autor esperava
  • Foi irônico ver lado a lado a citação da CNBC de que o salário de Satya Nadella subiu 22%, para US$ 96,5 milhões, e a fala de um astronauta da Artemis II dizendo que “os dois Outlooks não funcionam”

    • “Dois Outlooks”? Um já é demais
  • O texto parece exagerado em alguns pontos, mas, como alguém que já operou sistemas parecidos, lembro de ter que lutar sem parar para manter a estabilidade
    Vi problemas semelhantes em outras empresas, mas não na gravidade da escala do Azure
    Esse tipo de estrutura parece acabar levando a um loop de autodestruição

  • Usei Azure em 2018, e ele era lento, caro e de péssima qualidade
    No fórum do GitHub, eu e outros usuários tentávamos resolver problemas em que até funções básicas não funcionavam
    Este texto esclarece dúvidas que eu tinha desde aquela época
    Pessoalmente, sempre achei o Google Cloud a plataforma mais bem projetada, mas é uma pena que tenha menos suporte humano do que a AWS

    • O suporte do GCP é realmente péssimo
      Meu responsável mudou três vezes em três meses, e às vezes pedidos de quota ou dúvidas sobre limites do sistema simplesmente eram ignorados