1 pontos por xguru 1 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp
  • nvidia-smi e nvtop apenas verificam se há execução de kernels na GPU, então podem mostrar 100% de utilização mesmo quando só uma fração muito pequena da capacidade real do hardware está sendo usada
  • O Utilyze lê diretamente os contadores de desempenho da GPU para mostrar em tempo real o uso efetivo dos recursos, com sobrecarga desprezível
  • Calcula o limite superior de SOL atingível (Attainable SOL), que é a utilização máxima realisticamente alcançável para uma combinação de workload, modelo e hardware, permitindo entender quanto ainda dá para extrair
  • Detecta automaticamente servidores de inferência em execução e identifica os modelos carregados em cada GPU; no momento, o backend suporta apenas vLLM (SGLang e outros serão adicionados depois)
  • O hardware suportado é NVIDIA Ampere ou superior (A100, H100, H200, B200, RTX 3000+); no momento há suporte parcial a alguns modelos em configurações de até 8 GPUs por nó em H100-80G e A100-80G
  • A arquitetura consiste em executar o servidor de profiling no Linux e conectar a partir de macOS/Windows com um cliente remoto baseado em WebSocket
  • Um único ID de dispositivo pode monitorar apenas uma instância — limitação da forma de acesso ao dispositivo na API NVIDIA Perf SDK
  • Para executar sem sudo, é necessário definir NVreg_RestrictProfilingToAdminUsers=0 e reiniciar
  • Licença Apache-2.0

Ainda não há comentários.

Ainda não há comentários.