- O sistema de pooling Aegaeon desenvolvido pela Alibaba Cloud aumentou em 9 vezes a eficiência de uso de GPU e reduziu em 82% a quantidade de GPUs Nvidia necessária para o mesmo serviço de LLM.
- Em vez de fixar a GPU por modelo, o sistema virtualiza por token e agenda dinamicamente em um pool compartilhado, permitindo que vários modelos usem uma única GPU simultaneamente.
- Em testes de serviço real com LLMs diversos de até 72 bilhões de parâmetros, o número de GPUs caiu de 1.192 para 213.
- Em ambiente de disponibilidade limitada de GPUs H20, manteve desempenho estável e registrou melhora de goodput de 1,5 até 9 vezes em comparação com ServerlessLLM e MuxServe.
- O artigo foi divulgado na conferência SOSP 2025 em Seul, e deve gerar grande interesse entre grandes empresas de nuvem que enfrentam falta de recursos de GPU.
O sistema de pooling Aegaeon e seu contexto
- A Alibaba Cloud anunciou que, com o sistema de pooling Aegaeon, reduziu em 82% o uso de GPUs Nvidia durante meses de testes beta no marketplace Model Studio.
- Esses resultados foram apresentados em um artigo submetido a revisão por pares no ACM Symposium on Operating Systems (SOSP), realizado em Seul em 2025.
- A tecnologia tem como objetivo permitir que provedores de nuvem, em ambientes como a China com oferta restrita de GPUs recentes como a Nvidia H20, aproveitem melhor seus recursos existentes.
Aegaeon: escalonador dedicado à inferência para maximizar a eficiência de GPU
- O Aegaeon é um escalonador para maximizar os recursos de GPU na etapa de inferência, não para aumentar a eficiência do treinamento de modelos.
- A abordagem tradicional fixava 1 GPU para 1 modelo, enquanto o Aegaeon foi projetado para dividir por token, permitindo o uso simultâneo por vários modelos.
- Aumenta o goodput (throughput efetivo) em até 9 vezes e alcança taxa de processamento estável mesmo com padrões irregulares de requisições LLM.
Resultados de testes e economia
- O efeito foi comprovado em testes beta de vários meses com pesquisadores de infraestrutura da Peking University e da Alibaba, incluindo o CTO Jingran Zhou.
- Durante o período de teste, foi possível reduzir 1.192 GPUs para 213 mantendo o mesmo nível de carga de inferência de LLM.
- Também apresentou alta eficiência em cenário de serviço simultâneo de múltiplos LLMs, incluindo modelos de até 72 bilhões de parâmetros.
- Os testes foram realizados em GPUs H20 disponíveis legalmente na China após o controle de exportações dos EUA.
- Segundo a South China Morning Post, a H20 é atualmente usada como o principal acelerador alternativo no país.
Composição técnica: duas estratégias centrais
- 1. Multi-model packing: aloca vários modelos em uma única GPU, reduzindo ao máximo recursos ociosos entre requisições.
- 2. Token-level autoscaling: em vez do total de tokens da requisição, ajusta dinamicamente o trabalho computacional com base no número de tokens de saída sendo gerados.
- Com isso, remove reservas de GPU desnecessárias e maximiza a eficiência de custo por throughput.
- Em benchmarks, atingiu melhoria de desempenho de 1,5 a 9 vezes em relação ao ServerlessLLM e MuxServe.
Integração de rede e pilha
- O artigo não detalhou a arquitetura de rede usada, baseada em eRDMA.
- A Alibaba é conhecida por possuir uma rede própria de alta integração de eRDMA (Elastic RDMA) e uma stack de GPU altamente otimizada.
- Portanto, esses resultados podem depender de um ambiente de integração interna altamente otimizado.
Implicações
- Em um mercado chinês com fornecimento limitado de GPUs, isso é visto como uma solução estratégica para extrair o máximo de eficiência dos recursos de chips existentes.
- Essa abordagem pode se tornar um benchmark para melhoria de eficiência de inferência também para hiperescaleurs como AWS, Google Cloud e Microsoft Azure.
- Além dos limites de hardware das próprias GPUs, técnicas de escalonamento e virtualização por software surgem como novo pilar da competitividade em infraestrutura de IA.
Ainda não há comentários.