9 pontos por xguru 2023-09-13 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Inclui o compilador de deep learning TensorRT e kernels otimizados, etapas de pré-processamento/pós-processamento e componentes básicos de comunicação multi-GPU/multi-node
  • Permite oferecer rapidamente desempenho máximo e recursos personalizados para LLMs, mesmo sem conhecimento profundo de C++ ou CUDA
  • Fornece uma API Python modular em open source, oferecendo facilidade de uso e extensibilidade
  • Suporta GPUs Ampere, Lovelace e Hopper
  • Quando testado com TensorRT-LLM com base no H100
    • O GPT-J-6B apresentou melhoria de 8x no desempenho de inferência, redução de 5,3x no TCO e redução de 5,6x no consumo de energia
    • O Llama2 70B apresentou melhoria de 4,6x no desempenho de inferência, redução de 3x no TCO e redução de 3,2x no consumo de energia
  • Inclui uma tecnologia de agendamento otimizada chamada In-flight Batching
  • A GPU NVIDIA H100 com TensorRT-LLM oferece aos usuários a capacidade de converter facilmente os pesos do modelo para o novo formato FP8 e compilar o modelo para usar automaticamente kernels FP8 otimizados
    • Isso é possível graças à tecnologia Hopper Transformer Engine, sem necessidade de alterar o código do modelo
  • Atualmente disponível em early access, com lançamento previsto para as próximas semanas

Ainda não há comentários.

Ainda não há comentários.