2 pontos por GN⁺ 2025-03-08 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Com o llama.cpp Portable Zip mais recente, é possível executar o DeepSeek-R1-671B-Q4_K_M em um Xeon com 1 ou 2 Arc A770
  • Este guia explica como executar o llama.cpp diretamente usando ipex-llm em GPUs Intel

Ambientes compatíveis

  • Processadores Intel Core Ultra
  • Processadores Intel Core de 11ª a 14ª geração
  • GPU Intel Arc Série A
  • GPU Intel Arc Série B

Índice

  • Início rápido no Windows
    • Pré-requisitos
    • Etapa 1: download e descompactação
    • Etapa 2: configuração do runtime
    • Etapa 3: execução do modelo GGUF
  • Início rápido no Linux
    • Pré-requisitos
    • Etapa 1: download e extração
    • Etapa 2: configuração do runtime
    • Etapa 3: execução do modelo GGUF
  • (Novo recurso) Executando o DeepSeek V3/R1 671B com FlashMoE
  • Dicas e solução de problemas
    • Erro: dispositivo sycl diferente detectado
    • Uso de múltiplas GPUs
    • Ambiente de desempenho
  • Mais detalhes

Início rápido no Windows

Pré-requisitos

  • Verifique a versão do driver da GPU e atualize se necessário
    • Para processadores Intel Core Ultra ou GPU Intel Arc Série B, recomenda-se o driver mais recente
    • Para outras iGPU/dGPU Intel, recomenda-se a versão de driver 32.0.101.6078

Etapa 1: download e descompactação

  • Usuários do Windows devem baixar o IPEX-LLM llama.cpp portable zip e descompactá-lo em uma pasta

Etapa 2: configuração do runtime

  • Abra o "Prompt de Comando" e acesse a pasta com o comando cd /d PATH\TO\EXTRACTED\FOLDER
  • Algumas variáveis de ambiente são necessárias ou recomendadas para usar aceleração por GPU
    • Defina set SYCL_CACHE_PERSISTENT=1
  • Usuários com múltiplas GPUs devem consultar as dicas para ver como selecionar uma GPU específica

Etapa 3: execução do modelo GGUF

  • Baixe ou copie um modelo GGUF da comunidade para um diretório local
  • Depois de definir o caminho do modelo, execute com o comando llama-cli.exe

Início rápido no Linux

Pré-requisitos

  • Verifique a versão do driver da GPU e atualize se necessário
  • Recomenda-se instalar o driver seguindo o guia de instalação do driver de GPU cliente da Intel

Etapa 1: download e extração

  • Usuários do Linux devem baixar o IPEX-LLM llama.cpp portable tgz e extraí-lo em uma pasta

Etapa 2: configuração do runtime

  • Abra o "Terminal" e acesse a pasta com o comando cd /PATH/TO/EXTRACTED/FOLDER
  • Algumas variáveis de ambiente são necessárias ou recomendadas para usar aceleração por GPU
    • Defina export SYCL_CACHE_PERSISTENT=1
  • Usuários com múltiplas GPUs devem consultar as dicas para ver como selecionar uma GPU específica

Etapa 3: execução do modelo GGUF

  • Baixe ou copie um modelo GGUF da comunidade para um diretório local
  • Depois de definir o caminho do modelo, execute com o comando ./llama-cli

FlashMoE para DeepSeek V3/R1

  • FlashMoE é uma ferramenta de linha de comando baseada em llama.cpp, otimizada para modelos MoE
  • Disponível na plataforma Linux
  • Modelos MoE GGUF testados: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K etc.

Dicas e solução de problemas

Erro: dispositivo sycl diferente detectado

  • Quando dispositivos sycl diferentes são detectados, o desempenho fica limitado ao dispositivo mais lento
  • É possível desativar essa verificação e usar todos os dispositivos definindo SYCL_DEVICE_CHECK=0

Uso de múltiplas GPUs

  • Se houver várias GPUs Intel, por padrão a execução ocorre em todas as GPUs
  • Para usar uma GPU específica, defina a variável de ambiente ONEAPI_DEVICE_SELECTOR

Ambiente de desempenho

  • É possível melhorar o desempenho definindo SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
  • Embora esse modo melhore o desempenho, exceções podem ocorrer

Este guia apresenta como executar o llama.cpp com eficiência em GPUs Intel, incluindo várias configurações e métodos de otimização.

Ainda não há comentários.

Ainda não há comentários.