Intel lança biblioteca de aceleração para NPU
(github.com/intel)Biblioteca de aceleração para NPU da Intel®: aumentando o desempenho de IA com a unidade de processamento neural da Intel
• A biblioteca de aceleração para NPU da Intel é uma biblioteca Python que aproveita a capacidade da unidade de processamento neural (NPU) da Intel para aumentar a eficiência de aplicações de inteligência artificial. Ela otimiza cargas de trabalho de IA ao direcionar com eficiência a computação e o fluxo de dados para obter desempenho e eficiência energética ideais, maximizando a utilização computacional e minimizando a transferência de dados.
• A biblioteca foi projetada para processadores Intel Core Ultra, que integram a NPU com recursos de aceleração de computação e transferência de dados. Seus destaques incluem um mecanismo de computação neural para operações de IA, um mecanismo vetorial de arquitetura híbrida de streaming para tarefas gerais de computação e um mecanismo DMA para transferência eficiente de dados.
• Os principais recursos de desenvolvimento incluem quantização de 8 bits e 4 bits, inferência de precisão mista nativa da NPU, suporte a Float16 e BFloat16, suporte a arquivos torch.com, implementação de fusão horizontal de MLP para LLM, inferência de forma estática, inferência MHA na NPU e computação heterogênea NPU/GPU.
• Para usar a biblioteca, verifique se há uma NPU disponível no sistema e instale o pacote via pip. Ela é compatível com sistemas Windows e Linux, mas o MacOS ainda não é suportado. Para melhor desempenho, atualize o driver da NPU para a versão mais recente.
• A biblioteca fornece exemplos implementados e oferece suporte a arquivos torch.com para otimizar modelos PyTorch para a NPU. Ela também fornece funcionalidade explícita ao usar versões do PyTorch anteriores à 2.0.0 ou ao compilar modelos em ambiente Windows.
1 comentários
Parece promissor ver até que ponto os cálculos de IA podem ser feitos apenas com a NPU, mesmo sem uma placa de vídeo dedicada.