16 pontos por xguru 2023-12-21 | 1 comentários | Compartilhar no WhatsApp
  • 11 vezes mais rápido que o llama.cpp ao executar o Falcon(ReLU)-40B-FP16 em uma RTX 4090 (24G)
  • Motor de inferência de LLM híbrido CPU/GPU que aproveita a localidade de ativação do dispositivo
    • Distingue entre alguns neurônios quentes, que são ativados de forma consistente, e a maioria dos neurônios frios, que variam conforme a entrada específica
    • Os neurônios quentes são pré-carregados na GPU para ativação rápida, enquanto os neurônios frios são calculados na CPU, reduzindo bastante os requisitos de memória da GPU e a transferência de dados entre CPU e GPU
  • Integra um preditor adaptativo e operadores esparsos com reconhecimento de neurônios para otimizar a eficiência da ativação neuronal e da esparsidade computacional
  • Em uma única GPU NVIDIA RTX 4090, alcança velocidade de geração de tokens de 13,20 tokens/s em média e até 29,08 tokens/s em vários LLMs (incluindo o OPT-175B)
    • Isso é apenas 18% inferior ao que foi alcançado pela GPU A100 de ponta para servidores
    • Mantendo a precisão do modelo, supera amplamente o desempenho do llama.cpp em até 11,69 vezes

1 comentários

 
cosine20 2023-12-28

A 4090 é de consumidor, sim kkk.....