- Converte redes neurais profundas em código C++ CUDA (GPU da NVIDIA) / HIP (GPU da AMD) para inferência rápida
- Em modelos principais como ResNet, BERT, VisionTransformer e Stable Diffusion, alcança desempenho próximo ao roofline fp16 do TensorCore/MatrixCore
- Open source unificado, aberto e flexível
- Excelente compatibilidade retroativa (sem dependência de bibliotecas/runtimes de terceiros). Cada modelo é compilado como um binário portátil
- Horizontal Fusion / Vertical Fusion / Memory Fusion
- Funciona com e sem PyTorch
Ainda não há comentários.