nvidia-smi e nvtop apenas verificam se há execução de kernels na GPU, então podem mostrar 100% de utilização mesmo quando só uma fração muito pequena da capacidade real do hardware está sendo usada
- O Utilyze lê diretamente os contadores de desempenho da GPU para mostrar em tempo real o uso efetivo dos recursos, com sobrecarga desprezível
- Calcula o limite superior de SOL atingível (Attainable SOL), que é a utilização máxima realisticamente alcançável para uma combinação de workload, modelo e hardware, permitindo entender quanto ainda dá para extrair
- Detecta automaticamente servidores de inferência em execução e identifica os modelos carregados em cada GPU; no momento, o backend suporta apenas vLLM (SGLang e outros serão adicionados depois)
- O hardware suportado é NVIDIA Ampere ou superior (A100, H100, H200, B200, RTX 3000+); no momento há suporte parcial a alguns modelos em configurações de até 8 GPUs por nó em H100-80G e A100-80G
- A arquitetura consiste em executar o servidor de profiling no Linux e conectar a partir de macOS/Windows com um cliente remoto baseado em WebSocket
- Um único ID de dispositivo pode monitorar apenas uma instância — limitação da forma de acesso ao dispositivo na API NVIDIA Perf SDK
- Para executar sem sudo, é necessário definir
NVreg_RestrictProfilingToAdminUsers=0 e reiniciar
- Licença Apache-2.0
Ainda não há comentários.