5 pontos por GN⁺ 2025-10-21 | 5 comentários | Compartilhar no WhatsApp
  • O sistema de pooling Aegaeon desenvolvido pela Alibaba Cloud aumentou em 9 vezes a eficiência de uso de GPU e reduziu em 82% a quantidade de GPUs Nvidia necessária para o mesmo serviço de LLM.
  • Em vez de fixar a GPU por modelo, o sistema virtualiza por token e agenda dinamicamente em um pool compartilhado, permitindo que vários modelos usem uma única GPU simultaneamente.
  • Em testes de serviço real com LLMs diversos de até 72 bilhões de parâmetros, o número de GPUs caiu de 1.192 para 213.
  • Em ambiente de disponibilidade limitada de GPUs H20, manteve desempenho estável e registrou melhora de goodput de 1,5 até 9 vezes em comparação com ServerlessLLM e MuxServe.
  • O artigo foi divulgado na conferência SOSP 2025 em Seul, e deve gerar grande interesse entre grandes empresas de nuvem que enfrentam falta de recursos de GPU.

O sistema de pooling Aegaeon e seu contexto

  • A Alibaba Cloud anunciou que, com o sistema de pooling Aegaeon, reduziu em 82% o uso de GPUs Nvidia durante meses de testes beta no marketplace Model Studio.
  • Esses resultados foram apresentados em um artigo submetido a revisão por pares no ACM Symposium on Operating Systems (SOSP), realizado em Seul em 2025.
  • A tecnologia tem como objetivo permitir que provedores de nuvem, em ambientes como a China com oferta restrita de GPUs recentes como a Nvidia H20, aproveitem melhor seus recursos existentes.

Aegaeon: escalonador dedicado à inferência para maximizar a eficiência de GPU

  • O Aegaeon é um escalonador para maximizar os recursos de GPU na etapa de inferência, não para aumentar a eficiência do treinamento de modelos.
    • A abordagem tradicional fixava 1 GPU para 1 modelo, enquanto o Aegaeon foi projetado para dividir por token, permitindo o uso simultâneo por vários modelos.
    • Aumenta o goodput (throughput efetivo) em até 9 vezes e alcança taxa de processamento estável mesmo com padrões irregulares de requisições LLM.

Resultados de testes e economia

  • O efeito foi comprovado em testes beta de vários meses com pesquisadores de infraestrutura da Peking University e da Alibaba, incluindo o CTO Jingran Zhou.
    • Durante o período de teste, foi possível reduzir 1.192 GPUs para 213 mantendo o mesmo nível de carga de inferência de LLM.
    • Também apresentou alta eficiência em cenário de serviço simultâneo de múltiplos LLMs, incluindo modelos de até 72 bilhões de parâmetros.
  • Os testes foram realizados em GPUs H20 disponíveis legalmente na China após o controle de exportações dos EUA.
    • Segundo a South China Morning Post, a H20 é atualmente usada como o principal acelerador alternativo no país.

Composição técnica: duas estratégias centrais

  • 1. Multi-model packing: aloca vários modelos em uma única GPU, reduzindo ao máximo recursos ociosos entre requisições.
  • 2. Token-level autoscaling: em vez do total de tokens da requisição, ajusta dinamicamente o trabalho computacional com base no número de tokens de saída sendo gerados.
    • Com isso, remove reservas de GPU desnecessárias e maximiza a eficiência de custo por throughput.
  • Em benchmarks, atingiu melhoria de desempenho de 1,5 a 9 vezes em relação ao ServerlessLLM e MuxServe.

Integração de rede e pilha

  • O artigo não detalhou a arquitetura de rede usada, baseada em eRDMA.
    • A Alibaba é conhecida por possuir uma rede própria de alta integração de eRDMA (Elastic RDMA) e uma stack de GPU altamente otimizada.
    • Portanto, esses resultados podem depender de um ambiente de integração interna altamente otimizado.

Implicações

  • Em um mercado chinês com fornecimento limitado de GPUs, isso é visto como uma solução estratégica para extrair o máximo de eficiência dos recursos de chips existentes.
  • Essa abordagem pode se tornar um benchmark para melhoria de eficiência de inferência também para hiperescaleurs como AWS, Google Cloud e Microsoft Azure.
  • Além dos limites de hardware das próprias GPUs, técnicas de escalonamento e virtualização por software surgem como novo pilar da competitividade em infraestrutura de IA.

5 comentários

 
jjpark78 2025-10-21

Parece que já dá pra ouvir o barulho da queda das ações da NVIDIA vindo de algum lugar.

 
jeongsoop 2025-10-21

Normalmente, nesses casos, uma economia de 80% não significa comprar apenas 1/5 das GPUs; em vez disso, o caminho é processar cinco vezes mais dados.

 
shakespeares 2025-10-21

Será que é mesmo assim? Não haverá algum detalhe escondido por trás disso?

 
GN⁺ 2025-10-21
Opinião do Hacker News
  • A Alibaba Cloud informou que reduziu em até 82% o uso de GPUs Nvidia para servir modelos com pouca demanda; segundo a pesquisa, no marketplace da Alibaba Cloud, 17,7% dos GPUs eram alocados para apenas 1,35% de todas as requisições, e o que antes exigia 1.192 GPUs agora é atendido com 213 GPUs para o mesmo volume de requisições.
    • Não entendo bem exatamente como isso funciona. Fiquei curioso para saber se o modelo fica simplesmente carregado na GPU durante o período ocioso. Eu achava que esse tipo de workload seria alocado de forma dinâmica. Claro, imagino que, se modelo+GPU ficarem ociosos por mais de alguns minutos, os recursos também possam ser liberados. Na prática, não sou da área de IA, então estou habituado a alocar nós via SLURM toda vez que uso recursos.
    • Na Figura 1(a) do paper, 17,7% é a fração em relação ao total de 30.000 GPUs (ou seja, 5.310 GPUs processam 1,35% das requisições). Essa redução foi medida em um ambiente beta pequeno e exclusivo com apenas 47 modelos; para os 733 modelos "cold" no total, uma conta simples por quantidade de modelos daria necessidade de 3.321 GPUs, equivalente a 37,5% de economia em relação ao anterior. Em um cluster inteiro de 30.000 GPUs, isso seria 6,6% de redução.
    • Antes, engenheiros de software e de computação encaravam os problemas de frente e projetavam algoritmos e soluções de forma criativa. Com as restrições da indústria de semicondutores dos EUA, os engenheiros chineses também parecem estar seguindo o caminho de inovar e resolver problemas como o Vale do Silício fazia no passado.
  • O ponto principal é que só alguns modelos, como Alibaba Qwen e DeepSeek, recebem a maior parte das solicitações de inferência; a maioria dos outros modelos é usada de forma esparsa, então 17,7% de todo o recurso de GPU é usado para apenas 1,35% das requisições, o que é ineficiente.
    • Esses outros modelos provavelmente são bem menores.
  • Um link melhor é o artigo da Tom's Hardware, e o paper está aqui.
    • Eu troquei esse URL (que era originalmente da SCMP) por esse link e pretendo refletir o link do paper no topo do texto.
  • A tentativa dos EUA de atrasar o avanço tecnológico da China não impede que a China siga no mesmo caminho, mas pode, ironicamente, empurrá-la a inovar de outra forma. Se empresas chinesas tornarem essa inovação open source, o resultado pode acabar sendo mais eficiência e progresso em geral — e, no longo prazo, talvez sejamos até gratos ao "gatekeeping civilizacional" dos EUA.
    • Historicamente, quando uma tecnologia é bloqueada, a China acaba chegando nela em poucos anos ou criando algo melhor. Há uma arrogância nessa visão ocidental, e, na prática, muita contribuição de cientistas ou manufatura chinesa existe no desenvolvimento de muitos produtos ocidentais; sem isso, muita coisa provavelmente não teria sido feita. Olhando para listas de pesquisadores de IA, a presença chinesa é bastante grande.
    • O discurso antiimigração nos EUA pode acabar sendo o maior obstáculo à própria inovação americana. Na prática, talentos que geram inovação estão saindo. Sem a vantagem de recrutar talentos globais, os EUA podem ficar em desvantagem até em escala populacional. O mundo está buscando novos líderes, e a China ainda não chegou a esse nível, mas tem chance nos próximos anos; a principal fraqueza dela, porém, é a falta de ambição externa e a tendência de se fixar apenas em questões regionais (Taiwan e Mar do Sul da China).
    • Agora os EUA já não conseguem mais segurar o avanço chinês; com a própria China proibindo importação de chips, a medida americana perde efeito. Para referência, sobre a notícia de 2025 sobre banimento de chips de IA da Nvidia na China: artigo da CNBC
    • Toda essa situação me lembra o Japão no pós-Segunda Guerra Mundial, que desenvolveu motores com ótimo rendimento e carros leves com poucos recursos. Como os EUA e parte da Europa não tinham essas restrições, a diferença foi grande e, no fim, o carro americano ficou menos competitivo.
    • Fala-se de “efeito bumerangue”, mas acho que já está tarde. Em 2024, os laboratórios ocidentais dominavam; em 2025, a China está trazendo em sequência modelos state-of-the-art como deepseek, qwen, kimi, glm, ernie, e agora mais laboratórios chineses do que ocidentais estão despejando modelos de ponta.
  • Sempre tive curiosidade sobre blogs de engenharia/pesquisa de empresas chinesas. Antes eu lia bastante os blogs de empresas ocidentais, mas agora é hora de usar estudos de caso de outros players fora do ecossistema FAANG como benchmarks.
  • Parece que eles testaram só com modelos bem pequenos; fico na dúvida se isso escala de fato para modelos grandes.
    • De fato, todos são LLMs, então não são tão pequenos assim. No ambiente de produção atual, eles rodam 28 modelos de 1.8–7B (TP=1) e 19 modelos de 32–72B (TP=4) em um cluster de 213 GPUs H20 distribuído por várias regiões.
  • Esse sistema de GPU virtual parece ser um scheduler separado (gerenciador de jobs). Fico curioso sobre quanta latência essa movimentação de dados introduz.
  • Fico curioso se esse método pode ser aplicado a outras workloads também.
  • No fim, parece que só pararam com comportamento desnecessário (uso ineficiente de recurso).
  • Instituições com muita riqueza de recursos podem migrar modelos pré-treinados para novo hardware e reduzir o “imposto NVDA” (custo do monopólio da Nvidia), mas acredito que pesquisa e treino de modelos em si dificilmente acontece fora de um ecossistema NVDA maduro.