5 pontos por GN⁺ 2025-10-21 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O sistema de pooling Aegaeon desenvolvido pela Alibaba Cloud aumentou em 9 vezes a eficiência de uso de GPU e reduziu em 82% a quantidade de GPUs Nvidia necessária para o mesmo serviço de LLM.
  • Em vez de fixar a GPU por modelo, o sistema virtualiza por token e agenda dinamicamente em um pool compartilhado, permitindo que vários modelos usem uma única GPU simultaneamente.
  • Em testes de serviço real com LLMs diversos de até 72 bilhões de parâmetros, o número de GPUs caiu de 1.192 para 213.
  • Em ambiente de disponibilidade limitada de GPUs H20, manteve desempenho estável e registrou melhora de goodput de 1,5 até 9 vezes em comparação com ServerlessLLM e MuxServe.
  • O artigo foi divulgado na conferência SOSP 2025 em Seul, e deve gerar grande interesse entre grandes empresas de nuvem que enfrentam falta de recursos de GPU.

O sistema de pooling Aegaeon e seu contexto

  • A Alibaba Cloud anunciou que, com o sistema de pooling Aegaeon, reduziu em 82% o uso de GPUs Nvidia durante meses de testes beta no marketplace Model Studio.
  • Esses resultados foram apresentados em um artigo submetido a revisão por pares no ACM Symposium on Operating Systems (SOSP), realizado em Seul em 2025.
  • A tecnologia tem como objetivo permitir que provedores de nuvem, em ambientes como a China com oferta restrita de GPUs recentes como a Nvidia H20, aproveitem melhor seus recursos existentes.

Aegaeon: escalonador dedicado à inferência para maximizar a eficiência de GPU

  • O Aegaeon é um escalonador para maximizar os recursos de GPU na etapa de inferência, não para aumentar a eficiência do treinamento de modelos.
    • A abordagem tradicional fixava 1 GPU para 1 modelo, enquanto o Aegaeon foi projetado para dividir por token, permitindo o uso simultâneo por vários modelos.
    • Aumenta o goodput (throughput efetivo) em até 9 vezes e alcança taxa de processamento estável mesmo com padrões irregulares de requisições LLM.

Resultados de testes e economia

  • O efeito foi comprovado em testes beta de vários meses com pesquisadores de infraestrutura da Peking University e da Alibaba, incluindo o CTO Jingran Zhou.
    • Durante o período de teste, foi possível reduzir 1.192 GPUs para 213 mantendo o mesmo nível de carga de inferência de LLM.
    • Também apresentou alta eficiência em cenário de serviço simultâneo de múltiplos LLMs, incluindo modelos de até 72 bilhões de parâmetros.
  • Os testes foram realizados em GPUs H20 disponíveis legalmente na China após o controle de exportações dos EUA.
    • Segundo a South China Morning Post, a H20 é atualmente usada como o principal acelerador alternativo no país.

Composição técnica: duas estratégias centrais

  • 1. Multi-model packing: aloca vários modelos em uma única GPU, reduzindo ao máximo recursos ociosos entre requisições.
  • 2. Token-level autoscaling: em vez do total de tokens da requisição, ajusta dinamicamente o trabalho computacional com base no número de tokens de saída sendo gerados.
    • Com isso, remove reservas de GPU desnecessárias e maximiza a eficiência de custo por throughput.
  • Em benchmarks, atingiu melhoria de desempenho de 1,5 a 9 vezes em relação ao ServerlessLLM e MuxServe.

Integração de rede e pilha

  • O artigo não detalhou a arquitetura de rede usada, baseada em eRDMA.
    • A Alibaba é conhecida por possuir uma rede própria de alta integração de eRDMA (Elastic RDMA) e uma stack de GPU altamente otimizada.
    • Portanto, esses resultados podem depender de um ambiente de integração interna altamente otimizado.

Implicações

  • Em um mercado chinês com fornecimento limitado de GPUs, isso é visto como uma solução estratégica para extrair o máximo de eficiência dos recursos de chips existentes.
  • Essa abordagem pode se tornar um benchmark para melhoria de eficiência de inferência também para hiperescaleurs como AWS, Google Cloud e Microsoft Azure.
  • Além dos limites de hardware das próprias GPUs, técnicas de escalonamento e virtualização por software surgem como novo pilar da competitividade em infraestrutura de IA.

Ainda não há comentários.

Ainda não há comentários.