GPU-Usage-Audit: e se a GPU não estiver simplesmente ociosa, mas ‘reservada’ à toa?!
(github.com/AI-Ocean)Se no nvidia-smi aparece util 1%, a placa parece estar livre,
mas se alguém deixou 8GB alocados em um notebook Jupyter e saiu, ninguém mais consegue usar essa GPU.
Em servidores compartilhados ou GPUs cobradas por hora, esse é um desperdício invisível.
Por isso criamos o GPU-Usage-Audit!
Se o driver da NVIDIA estiver instalado, ele registra métricas da GPU em SQLite e depois gera relatórios.
Ele divide o tempo de uso da GPU em três categorias, não duas.
O tempo em que ela realmente está computando, o tempo em que está totalmente livre, e o tempo "idle-held", em que a memória está alocada mas não há computação acontecendo.
A maioria das ferramentas junta os dois últimos em uma coisa só, mas é exatamente aí que o desperdício se esconde.
Ele converte o tempo reservado em GPU-hours e, se estiver rodando por usuário, também mostra quem está ocupando quanto.
A instalação e a execução são em uma linha: uv tool install gpu-usage-audit && gua daemon
Depois que os dados forem acumulados, basta rodar gua report para ver o relatório,
e se quiser ver o resultado antes mesmo de ter dados, pode testar com dados fictícios usando gua demo.
Ainda não há comentários.