Executando o DeepSeek-R1-671B-Q4_K_M em 1 ou 2 Arc A770 Xeon
(github.com/intel)- Com o llama.cpp Portable Zip mais recente, é possível executar o DeepSeek-R1-671B-Q4_K_M em um Xeon com 1 ou 2 Arc A770
- Este guia explica como executar o llama.cpp diretamente usando
ipex-llmem GPUs Intel
Ambientes compatíveis
- Processadores Intel Core Ultra
- Processadores Intel Core de 11ª a 14ª geração
- GPU Intel Arc Série A
- GPU Intel Arc Série B
Índice
- Início rápido no Windows
- Pré-requisitos
- Etapa 1: download e descompactação
- Etapa 2: configuração do runtime
- Etapa 3: execução do modelo GGUF
- Início rápido no Linux
- Pré-requisitos
- Etapa 1: download e extração
- Etapa 2: configuração do runtime
- Etapa 3: execução do modelo GGUF
- (Novo recurso) Executando o DeepSeek V3/R1 671B com FlashMoE
- Dicas e solução de problemas
- Erro: dispositivo sycl diferente detectado
- Uso de múltiplas GPUs
- Ambiente de desempenho
- Mais detalhes
Início rápido no Windows
Pré-requisitos
- Verifique a versão do driver da GPU e atualize se necessário
- Para processadores Intel Core Ultra ou GPU Intel Arc Série B, recomenda-se o driver mais recente
- Para outras iGPU/dGPU Intel, recomenda-se a versão de driver 32.0.101.6078
Etapa 1: download e descompactação
- Usuários do Windows devem baixar o IPEX-LLM llama.cpp portable zip e descompactá-lo em uma pasta
Etapa 2: configuração do runtime
- Abra o "Prompt de Comando" e acesse a pasta com o comando
cd /d PATH\TO\EXTRACTED\FOLDER - Algumas variáveis de ambiente são necessárias ou recomendadas para usar aceleração por GPU
- Defina
set SYCL_CACHE_PERSISTENT=1
- Defina
- Usuários com múltiplas GPUs devem consultar as dicas para ver como selecionar uma GPU específica
Etapa 3: execução do modelo GGUF
- Baixe ou copie um modelo GGUF da comunidade para um diretório local
- Depois de definir o caminho do modelo, execute com o comando
llama-cli.exe
Início rápido no Linux
Pré-requisitos
- Verifique a versão do driver da GPU e atualize se necessário
- Recomenda-se instalar o driver seguindo o guia de instalação do driver de GPU cliente da Intel
Etapa 1: download e extração
- Usuários do Linux devem baixar o IPEX-LLM llama.cpp portable tgz e extraí-lo em uma pasta
Etapa 2: configuração do runtime
- Abra o "Terminal" e acesse a pasta com o comando
cd /PATH/TO/EXTRACTED/FOLDER - Algumas variáveis de ambiente são necessárias ou recomendadas para usar aceleração por GPU
- Defina
export SYCL_CACHE_PERSISTENT=1
- Defina
- Usuários com múltiplas GPUs devem consultar as dicas para ver como selecionar uma GPU específica
Etapa 3: execução do modelo GGUF
- Baixe ou copie um modelo GGUF da comunidade para um diretório local
- Depois de definir o caminho do modelo, execute com o comando
./llama-cli
FlashMoE para DeepSeek V3/R1
- FlashMoE é uma ferramenta de linha de comando baseada em llama.cpp, otimizada para modelos MoE
- Disponível na plataforma Linux
- Modelos MoE GGUF testados: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K etc.
Dicas e solução de problemas
Erro: dispositivo sycl diferente detectado
- Quando dispositivos sycl diferentes são detectados, o desempenho fica limitado ao dispositivo mais lento
- É possível desativar essa verificação e usar todos os dispositivos definindo
SYCL_DEVICE_CHECK=0
Uso de múltiplas GPUs
- Se houver várias GPUs Intel, por padrão a execução ocorre em todas as GPUs
- Para usar uma GPU específica, defina a variável de ambiente
ONEAPI_DEVICE_SELECTOR
Ambiente de desempenho
- É possível melhorar o desempenho definindo
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS - Embora esse modo melhore o desempenho, exceções podem ocorrer
Este guia apresenta como executar o llama.cpp com eficiência em GPUs Intel, incluindo várias configurações e métodos de otimização.
Ainda não há comentários.