Alibaba Cloud reduz em 82% o uso de GPUs Nvidia com o sistema de pooling Aegaeon

(tomshardware.com)

5 pontos por GN⁺ 2025-10-21 | Ainda não há comentários. | Compartilhar no WhatsApp

O sistema de pooling Aegaeon desenvolvido pela Alibaba Cloud aumentou em 9 vezes a eficiência de uso de GPU e reduziu em 82% a quantidade de GPUs Nvidia necessária para o mesmo serviço de LLM.
Em vez de fixar a GPU por modelo, o sistema virtualiza por token e agenda dinamicamente em um pool compartilhado, permitindo que vários modelos usem uma única GPU simultaneamente.
Em testes de serviço real com LLMs diversos de até 72 bilhões de parâmetros, o número de GPUs caiu de 1.192 para 213.
Em ambiente de disponibilidade limitada de GPUs H20, manteve desempenho estável e registrou melhora de goodput de 1,5 até 9 vezes em comparação com ServerlessLLM e MuxServe.
O artigo foi divulgado na conferência SOSP 2025 em Seul, e deve gerar grande interesse entre grandes empresas de nuvem que enfrentam falta de recursos de GPU.

O sistema de pooling Aegaeon e seu contexto

A Alibaba Cloud anunciou que, com o sistema de pooling Aegaeon, reduziu em 82% o uso de GPUs Nvidia durante meses de testes beta no marketplace Model Studio.
Esses resultados foram apresentados em um artigo submetido a revisão por pares no ACM Symposium on Operating Systems (SOSP), realizado em Seul em 2025.
A tecnologia tem como objetivo permitir que provedores de nuvem, em ambientes como a China com oferta restrita de GPUs recentes como a Nvidia H20, aproveitem melhor seus recursos existentes.

O Aegaeon é um escalonador para maximizar os recursos de GPU na etapa de inferência, não para aumentar a eficiência do treinamento de modelos.
- A abordagem tradicional fixava 1 GPU para 1 modelo, enquanto o Aegaeon foi projetado para dividir por token, permitindo o uso simultâneo por vários modelos.
- Aumenta o goodput (throughput efetivo) em até 9 vezes e alcança taxa de processamento estável mesmo com padrões irregulares de requisições LLM.

O efeito foi comprovado em testes beta de vários meses com pesquisadores de infraestrutura da Peking University e da Alibaba, incluindo o CTO Jingran Zhou.
- Durante o período de teste, foi possível reduzir 1.192 GPUs para 213 mantendo o mesmo nível de carga de inferência de LLM.
- Também apresentou alta eficiência em cenário de serviço simultâneo de múltiplos LLMs, incluindo modelos de até 72 bilhões de parâmetros.
Os testes foram realizados em GPUs H20 disponíveis legalmente na China após o controle de exportações dos EUA.
- Segundo a South China Morning Post, a H20 é atualmente usada como o principal acelerador alternativo no país.

1. Multi-model packing: aloca vários modelos em uma única GPU, reduzindo ao máximo recursos ociosos entre requisições.
2. Token-level autoscaling: em vez do total de tokens da requisição, ajusta dinamicamente o trabalho computacional com base no número de tokens de saída sendo gerados.
- Com isso, remove reservas de GPU desnecessárias e maximiza a eficiência de custo por throughput.
Em benchmarks, atingiu melhoria de desempenho de 1,5 a 9 vezes em relação ao ServerlessLLM e MuxServe.

O artigo não detalhou a arquitetura de rede usada, baseada em eRDMA.
- A Alibaba é conhecida por possuir uma rede própria de alta integração de eRDMA (Elastic RDMA) e uma stack de GPU altamente otimizada.
- Portanto, esses resultados podem depender de um ambiente de integração interna altamente otimizado.

Em um mercado chinês com fornecimento limitado de GPUs, isso é visto como uma solução estratégica para extrair o máximo de eficiência dos recursos de chips existentes.
Essa abordagem pode se tornar um benchmark para melhoria de eficiência de inferência também para hiperescaleurs como AWS, Google Cloud e Microsoft Azure.
Além dos limites de hardware das próprias GPUs, técnicas de escalonamento e virtualização por software surgem como novo pilar da competitividade em infraestrutura de IA.