Utilyze - ferramenta para medir com que eficiência a GPU realmente executa trabalho útil

xguru · 2026-05-22T09:31:03+09:00

nvidia-smi e nvtop apenas verificam se há execução de kernels na GPU, então podem mostrar 100% de utilização mesmo quando só uma fração muito pequena da capacidade real do hardware está sendo usada O Utilyze lê diretamente os contadores de desempenho da GPU para mostrar em tempo real o uso efetivo dos recursos, com sobrecarga desprezível Calcula o limite superior de SOL atingível (Attainable SOL), que é a utilização máxima realisticamente alcançável para uma combinação de workload, modelo e hardware, permitindo entender quanto ainda dá para extrair Detecta automaticamente servidores de inferência em execução e identifica os modelos carregados em cada GPU; no momento, o backend suporta apenas vLLM (SGLang e outros serão adicionados depois) O hardware suportado é NVIDIA Ampere ou superior (A100, H100, H200, B200, RTX 3000+); no momento há suporte parcial a alguns modelos em configurações de até 8 GPUs por nó em H100-80G e A100-80G A arquitetura consiste em executar o servidor de profiling no Linux e conectar a partir de macOS/Windows com um cliente remoto baseado em WebSocket Um único ID de dispositivo pode monitorar apenas uma instância — limitação da forma de acesso ao dispositivo na API NVIDIA Perf SDK Para executar sem sudo, é necessário definir NVreg_RestrictProfilingToAdminUsers=0 e reiniciar Licença Apache-2.0

(github.com/systalyze)

4 pontos por xguru 2026-05-22 | Ainda não há comentários. | Compartilhar no WhatsApp

nvidia-smi e nvtop apenas verificam se há execução de kernels na GPU, então podem mostrar 100% de utilização mesmo quando só uma fração muito pequena da capacidade real do hardware está sendo usada
O Utilyze lê diretamente os contadores de desempenho da GPU para mostrar em tempo real o uso efetivo dos recursos, com sobrecarga desprezível
Calcula o limite superior de SOL atingível (Attainable SOL), que é a utilização máxima realisticamente alcançável para uma combinação de workload, modelo e hardware, permitindo entender quanto ainda dá para extrair
Detecta automaticamente servidores de inferência em execução e identifica os modelos carregados em cada GPU; no momento, o backend suporta apenas vLLM (SGLang e outros serão adicionados depois)
O hardware suportado é NVIDIA Ampere ou superior (A100, H100, H200, B200, RTX 3000+); no momento há suporte parcial a alguns modelos em configurações de até 8 GPUs por nó em H100-80G e A100-80G
A arquitetura consiste em executar o servidor de profiling no Linux e conectar a partir de macOS/Windows com um cliente remoto baseado em WebSocket
Um único ID de dispositivo pode monitorar apenas uma instância — limitação da forma de acesso ao dispositivo na API NVIDIA Perf SDK
Para executar sem sudo, é necessário definir NVreg_RestrictProfilingToAdminUsers=0 e reiniciar
Licença Apache-2.0

Utilyze - ferramenta para medir com que eficiência a GPU realmente executa trabalho útil

Leituras relacionadas

Ainda não há comentários.