- Inclui o compilador de deep learning TensorRT e kernels otimizados, etapas de pré-processamento/pós-processamento e componentes básicos de comunicação multi-GPU/multi-node
- Permite oferecer rapidamente desempenho máximo e recursos personalizados para LLMs, mesmo sem conhecimento profundo de C++ ou CUDA
- Fornece uma API Python modular em open source, oferecendo facilidade de uso e extensibilidade
- Suporta GPUs Ampere, Lovelace e Hopper
- Quando testado com TensorRT-LLM com base no H100
- O GPT-J-6B apresentou melhoria de 8x no desempenho de inferência, redução de 5,3x no TCO e redução de 5,6x no consumo de energia
- O Llama2 70B apresentou melhoria de 4,6x no desempenho de inferência, redução de 3x no TCO e redução de 3,2x no consumo de energia
- Inclui uma tecnologia de agendamento otimizada chamada In-flight Batching
- A GPU NVIDIA H100 com TensorRT-LLM oferece aos usuários a capacidade de converter facilmente os pesos do modelo para o novo formato FP8 e compilar o modelo para usar automaticamente kernels FP8 otimizados
- Isso é possível graças à tecnologia Hopper Transformer Engine, sem necessidade de alterar o código do modelo
- Atualmente disponível em early access, com lançamento previsto para as próximas semanas
Ainda não há comentários.