- 11 vezes mais rápido que o llama.cpp ao executar o Falcon(ReLU)-40B-FP16 em uma RTX 4090 (24G)
- Motor de inferência de LLM híbrido CPU/GPU que aproveita a localidade de ativação do dispositivo
- Distingue entre alguns neurônios quentes, que são ativados de forma consistente, e a maioria dos neurônios frios, que variam conforme a entrada específica
- Os neurônios quentes são pré-carregados na GPU para ativação rápida, enquanto os neurônios frios são calculados na CPU, reduzindo bastante os requisitos de memória da GPU e a transferência de dados entre CPU e GPU
- Integra um preditor adaptativo e operadores esparsos com reconhecimento de neurônios para otimizar a eficiência da ativação neuronal e da esparsidade computacional
- Em uma única GPU NVIDIA RTX 4090, alcança velocidade de geração de tokens de 13,20 tokens/s em média e até 29,08 tokens/s em vários LLMs (incluindo o OPT-175B)
- Isso é apenas 18% inferior ao que foi alcançado pela GPU A100 de ponta para servidores
- Mantendo a precisão do modelo, supera amplamente o desempenho do llama.cpp em até 11,69 vezes
1 comentários
A 4090 é de consumidor, sim kkk.....