Biblioteca PyTorch para executar LLMs em CPUs e GPUs da Intel

(github.com/intel-analytics)

1 pontos por GN⁺ 2024-04-05 | 1 comentários | Compartilhar no WhatsApp

IPEX-LLM é uma biblioteca para PyTorch que acelera LLMs em GPU, NPU e CPU da Intel, mas o projeto está atualmente arquivado e não há garantia de desenvolvimento nem suporte por parte da Intel
O escopo de suporte inclui iGPU de PCs locais, GPUs dedicadas como Arc, Flex e Max, NPU Intel Core Ultra e CPU, com integração a llama.cpp, Ollama, vLLM, HuggingFace transformers, LangChain, LlamaIndex e mais
Mais de 70 modelos foram otimizados ou validados no ipex-llm, incluindo Llama, Phi, Mistral, Mixtral, DeepSeek, Qwen, ChatGLM, MiniCPM, Qwen-VL e MiniCPM-V
As atualizações mais recentes incluem a execução de DeepSeek V3/R1 671B e Qwen3MoE 235B com FlashMoE em 1 a 2 GPUs Intel Arc, além de ipex-llm 2.2.0, suporte a GPU no PyTorch 2.6 e suporte a Portable Zip do Ollama e do llama.cpp
O README afirma explicitamente que há problemas de segurança conhecidos, e a Intel não garante manutenção, correções de bugs, novos lançamentos ou atualizações, além de não aceitar mais patches

Estado do projeto e objetivo básico

IPEX-LLM é uma biblioteca de aceleração de LLM para acelerar LLMs em hardware Intel
O hardware-alvo inclui GPU, NPU e CPU da Intel
- Exemplos de GPU: iGPU de PCs locais e GPUs dedicadas como Arc, Flex e Max
- A NPU tem como alvo a linha Intel Core Ultra
No topo do projeto, o estado arquivado é informado explicitamente
- A Intel não fornece nem garante desenvolvimento ou suporte
- Manutenção, correções de bugs, novos lançamentos e atualizações não são garantidos
- A Intel não aceita mais patches para este projeto
- Há problemas de segurança conhecidos

Ecossistema integrado

O ipex-llm se integra com várias ferramentas de execução, serving e desenvolvimento de LLM
- llama.cpp
- Ollama
- vLLM
- HuggingFace transformers
- LangChain
- LlamaIndex
- Text-Generation-WebUI
- DeepSpeed-AutoTP
- FastChat
- Axolotl
- HuggingFace PEFT
- HuggingFace TRL
- AutoGen
- ModelScope
A documentação de início rápido cobre Ollama, llama.cpp, Arc B580, NPU, PyTorch/HuggingFace, vLLM, FastChat, serving com múltiplas GPUs Intel, Text-Generation-WebUI, Axolotl e benchmarking
O guia Docker inclui inferência C++ em GPU, inferência Python em GPU, vLLM em GPU e CPU, FastChat em GPU e ambiente de desenvolvimento GPU com VSCode

Modelos e escopo de otimização

O README informa que mais de 70 modelos foram otimizados ou validados no ipex-llm
Exemplos de famílias de modelos:
- linha LLaMA/LLaMA2/LLaMA 3
- Mistral, Mixtral, Gemma
- LLaVA, Whisper
- ChatGLM2/ChatGLM3
- Baichuan/Baichuan2
- linha Qwen/Qwen-1.5/Qwen2
- InternLM
- DeepSeek, MiniCPM, Qwen-VL, MiniCPM-V e outros
As precisões e quantizações suportadas são centradas em inferência de baixo bit
- FP8, FP6, FP4, INT4
- INT8
- INT2 é fornecido com base no mecanismo IQ2 do llama.cpp
Os exemplos de salvar/carregar incluem modelos de baixo bit em INT4, FP4, FP6, INT8, FP8, FP16, além do carregamento de modelos GGUF, AWQ e GPTQ

Recursos destacados nas atualizações mais recentes

A atualização de maio de 2025 afirma que, com o FlashMoE do ipex-llm, é possível executar DeepSeek V3/R1 671B e Qwen3MoE 235B em 1 a 2 GPUs Intel Arc
- Exemplos de GPU: Arc A770 ou B580
Em abril de 2025, foi lançado o ipex-llm 2.2.0, incluindo Portable Zip do Ollama e Portable Zip do llama.cpp
O Portable Zip do llama.cpp traz um aviso de segurança
- O carregamento de modelos baseado em mmap pode vazar dados por side channel em ambientes multi-tenant ou de host compartilhado
- É possível desativar mmap com a opção --no-mmap
Em abril de 2025, foi adicionado suporte ao PyTorch 2.6 para GPUs Intel
Em março de 2025, foram adicionados suporte ao modelo Gemma3 e a execução do DeepSeek-R1-671B-Q4_K_M em 1 a 2 Arc A770 com Xeon
Em fevereiro de 2025, foram adicionados o Portable Zip do Ollama para GPU Intel, o Portable Zip do llama.cpp para GPU e NPU Intel e o suporte ao vLLM 0.6.6 nas GPUs Intel Arc
Em dezembro de 2024, foram adicionados suporte em Python e C++ para a NPU Intel Core Ultra, com as séries 100H, 200V, 200K e 200H como alvo

Demos e dados de desempenho/precisão

As demos fornecem exemplos de execução de LLM local em iGPU Intel Core Ultra, NPU Intel Core Ultra, uma única GPU Arc e múltiplas GPUs Arc
- iGPU Intel Core Ultra: execução do Mistral-7B Q4_K com Ollama
- NPU Intel Core Ultra: execução do Llama3.2-3B SYM_INT4 com HuggingFace
- 2 dGPUs Intel Arc: execução do DeepSeek-R1-Distill-Qwen-32B Q4_K com llama.cpp
- Intel Xeon + Arc dGPU: execução do Qwen3MoE-235B Q4_K com FlashMoE
A seção de desempenho fornece dados de velocidade de geração de tokens em Intel Core Ultra e GPUs Intel Arc
Pelo guia de benchmarking, é possível executar diretamente os benchmarks de desempenho do ipex-llm
A seção de acurácia de modelos fornece resultados de Perplexity medidos no dataset Wikitext
- As precisões comparadas são sym_int4, q4_k, fp6, fp8_e5m2, fp8_e4m3, fp16
- Os modelos-alvo incluem Llama-2-7B-chat-hf, Mistral-7B-Instruct-v0.2, Baichuan2-7B-chat, Qwen1.5-7B-chat, Llama-3.1-8B-Instruct e gemma-2-9b-it
O desempenho varia conforme o uso, a configuração e outros fatores, e o ipex-llm pode não ser otimizado no mesmo nível para produtos que não sejam da Intel

Desenvolvimento e exemplos de uso

Os exemplos de código são divididos em inferência de baixo bit, inferência FP16/BF16, inferência distribuída, salvar/carregar, fine-tuning e integração com bibliotecas da comunidade
O fine-tuning em GPU Intel inclui LoRA, QLoRA, DPO, QA-LoRA e ReLoRA
Também são fornecidos exemplos de fine-tuning com QLoRA em CPU Intel
Os guias de aplicação cobrem fluxos de uso do ipex-llm em GraphRAG, RAGFlow, LangChain-Chatchat, Continue, Open WebUI, PrivateGPT e Dify
A documentação de API fornece Auto Classes no estilo HuggingFace Transformers e uma API para otimização de modelos PyTorch arbitrários

1 comentários

GN⁺ 2024-04-05

Comentários do Hacker News

A empresa que insistiu por tanto tempo em 4 núcleos tem uma chance de se recuperar quebrando, na próxima GPU para consumidor, a estagnação de 8~16GB de VRAM que AMD e Nvidia praticamente impõem há 10 anos
Seria até poético ver placas com 32~48GB a um preço acessível, e a Intel também parece estar finalmente se mexendo direito no suporte de software
- A Intel está correndo atrás da Nvidia em IA, e o principal motivo é a falta de competitividade dos produtos
  A Intel Arc A770 16GB, lançada em outubro de 2022, custa cerca de 300 dólares, enquanto a Nvidia 4060 Ti 16GB custa cerca de 500 dólares, mas em tarefas reais de IA a 4060 Ti é mais ou menos duas vezes mais rápida: https://cdn.mos.cms.futurecdn.net/FtXkrY6AD8YypMiHrZuy4K-120...
  Em teoria, a Arc A770 deveria ser mais rápida, o que torna o problema ainda maior. Em TFLOPS, ela entrega mais que o dobro do desempenho da Nvidia 4060: https://cdn.mos.cms.futurecdn.net/Q7WgNxqfgyjCJ5kk8apUQE-120...
  Mas, como todo o ecossistema de IA é desenvolvido e otimizado para rodar em CUDA da Nvidia, o desempenho real acaba ficando abaixo do esperado
  No fim, é um problema de reconhecimento de marca e ecossistema. Se a Intel lançasse uma GPU de workstation com 32GB ou 64GB de VRAM, não como um monstro enterprise absurdamente caro, mas num formato que desenvolvedores possam comprar, venderia muito
  Nem precisa ser a placa mais rápida. Basta oferecer mais VRAM que os concorrentes. Hoje, em treinamento ou geração de vídeo, a falta de VRAM é um gargalo maior do que a velocidade da GPU, e não entendo como a Intel não enxerga isso
- Mais de 24GB de VRAM provavelmente não vai baratear antes da chegada da GDDR7, e mesmo a GDDR7 talvez só consiga empurrar isso até algo em torno de 36GB
  As variantes mais avançadas de GDDR6 empilhada provavelmente serão bem caras, e também não dá para simplesmente colocar mais dies por causa de problemas de integridade de sinal
- O que parece óbvio para nós parece ser padrão da indústria para os gerentes de produto
  Se você pensar na última vez em que algum player do setor mexeu de verdade na ordem estabelecida, a Intel também não é uma empresa que mudou tanto assim
- Concordo que seria ótimo ver 32~48GB por um preço sem susto
  Ouvi dizer que em alguns BIOS de placas-mãe Asrock dá para configurar até 64GB de VRAM no Ryzen5, e estou pesquisando isso agora em vários hardwares da AMD
- Se a AMD fizesse drivers de alta qualidade, eu até pagaria para ver :-)
Estou curioso pelos dados de benchmark
A velocidade mostrada no exemplo pareceu bem boa
Queria saber se há alguma recomendação de GPU Intel com muita VRAM para usar isso
- Existe a Max GPU (Ponte Vecchio) para datacenter, com 128GB de memória HBM2e, 408MB de cache L2 e 64MB de cache L1
  A Gaudi tem números parecidos, mas, pelo material de marketing, parece ser a que traz núcleos especializados para tarefas de IA
  Dá para encontrar em sistemas prontos da Dell e da Supermicro: https://www.supermicro.com/en/accelerators/intel
  Mais leitura: https://www.servethehome.com/intel-shows-gpu-max-1550-perfor...
- No lado consumidor, existe a Intel Arc A770 com 16GB de VRAM
  Acima disso, já começa a entrar na linha de produtos enterprise
Queria saber se existe benchmark de desempenho comparando isso com llamafile ou outra alternativa
[0] - https://github.com/mozilla-Ocho/llamafile
- Já dá para usar GPU Intel no llama.cpp, e tanto ARC quanto GPU integrada suportam vários backends
  Os backends suportados são SYCL, Vulkan e OpenCL
  Eu mesmo não tenho o hardware, mas, como a Intel está apostando forte no lado de datacenter, imagino que SYCL seja mais rápido no ARC
  [1]: https://www.intel.com/content/www/us/en/developer/articles/t...
Seria bom se viesse junto algum script para GPU em nuvem que permitisse rodar os exemplos
Em vez de fazer o usuário adivinhar quais GPUs são compatíveis, seria útil deixar executar direto em um provedor de nuvem, e estou até pensando em montar isso eu mesmo
Entre os principais provedores de nuvem, não há nenhum que ofereça GPU Intel
- As GPUs da Intel já penetraram bastante no mercado do Sudeste Asiático, e a Intel também deve lançar sua nova geração em breve
  Além disso, ao contrário do licenciamento GRID da Nvidia, elas permitem virtualização de GPU sem custo extra de licença, então empresas de hosting podem fatiar a placa e oferecer isso ao cliente
  Tenho a impressão de que veremos muito mais ofertas baseadas em Intel daqui para frente
- Não é nuvem, mas para o consumidor é uma proposta bem interessante
  Entrega 16GB de memória e desempenho perto da 4060 Ti por algo como 65% do preço
- Ainda assim, há muitos lugares que oferecem CPU Intel

Biblioteca PyTorch para executar LLMs em CPUs e GPUs da Intel

Estado do projeto e objetivo básico

Ecossistema integrado

Modelos e escopo de otimização

Recursos destacados nas atualizações mais recentes

Demos e dados de desempenho/precisão

Desenvolvimento e exemplos de uso

Leituras relacionadas

1 comentários

Comentários do Hacker News