NVIDIA revela o open source TensorRT-LLM para acelerar a inferência de LLMs

xguru · 2023-09-13T10:17:02+09:00

Inclui o compilador de deep learning TensorRT e kernels otimizados, etapas de pré-processamento/pós-processamento e componentes básicos de comunicação multi-GPU/multi-node Permite oferecer rapidamente desempenho máximo e recursos personalizados para LLMs, mesmo sem conhecimento profundo de C++ ou CUDA Fornece uma API Python modular em open source, oferecendo facilidade de uso e extensibilidade Suporta GPUs Ampere, Lovelace e Hopper Quando testado com TensorRT-LLM com base no H100 O GPT-J-6B apresentou melhoria de 8x no desempenho de inferência, redução de 5,3x no TCO e redução de 5,6x no consumo de energia O Llama2 70B apresentou melhoria de 4,6x no desempenho de inferência, redução de 3x no TCO e redução de 3,2x no consumo de energia Inclui uma tecnologia de agendamento otimizada chamada In-flight Batching A GPU NVIDIA H100 com TensorRT-LLM oferece aos usuários a capacidade de converter facilmente os pesos do modelo para o novo formato FP8 e compilar o modelo para usar automaticamente kernels FP8 otimizados Isso é possível graças à tecnologia Hopper Transformer Engine, sem necessidade de alterar o código do modelo Atualmente disponível em early access, com lançamento previsto para as próximas semanas

(developer.nvidia.com)

9 pontos por xguru 2023-09-13 | Ainda não há comentários. | Compartilhar no WhatsApp

Inclui o compilador de deep learning TensorRT e kernels otimizados, etapas de pré-processamento/pós-processamento e componentes básicos de comunicação multi-GPU/multi-node
Permite oferecer rapidamente desempenho máximo e recursos personalizados para LLMs, mesmo sem conhecimento profundo de C++ ou CUDA
Fornece uma API Python modular em open source, oferecendo facilidade de uso e extensibilidade
Suporta GPUs Ampere, Lovelace e Hopper
Quando testado com TensorRT-LLM com base no H100
- O GPT-J-6B apresentou melhoria de 8x no desempenho de inferência, redução de 5,3x no TCO e redução de 5,6x no consumo de energia
- O Llama2 70B apresentou melhoria de 4,6x no desempenho de inferência, redução de 3x no TCO e redução de 3,2x no consumo de energia
Inclui uma tecnologia de agendamento otimizada chamada In-flight Batching
A GPU NVIDIA H100 com TensorRT-LLM oferece aos usuários a capacidade de converter facilmente os pesos do modelo para o novo formato FP8 e compilar o modelo para usar automaticamente kernels FP8 otimizados
- Isso é possível graças à tecnologia Hopper Transformer Engine, sem necessidade de alterar o código do modelo
Atualmente disponível em early access, com lançamento previsto para as próximas semanas

NVIDIA revela o open source TensorRT-LLM para acelerar a inferência de LLMs

Leituras relacionadas

Ainda não há comentários.