3 pontos por GN⁺ 2025-02-17 | 1 comentários | Compartilhar no WhatsApp
  • Este projeto compartilha os resultados de como executar o modelo Deepseek R1 Distill 8B Q40 em dispositivos Raspberry Pi 5 8GB.
  • O desempenho do modelo foi avaliado e estimado usando vários Raspberry Pi.
  • Resultados de avaliação e estimativa
    • 2 x Raspberry Pi 5 8GB
      • Avaliação: 7,70 tokens por segundo
      • Estimativa: 3,54 tokens por segundo
    • 4 x Raspberry Pi 5 8GB
      • Avaliação: 11,68 tokens por segundo
      • Estimativa: 6,43 tokens por segundo
  • Outras informações
    • O teste foi realizado com a rede em estado fechado.
    • Foi verificado o desempenho em um ambiente de cluster com vários dispositivos.

1 comentários

 
GN⁺ 2025-02-17
Comentários do Hacker News
  • Apresentações de rodar o "Deepseek R1" no Raspberry Pi sempre seguem um padrão parecido com rodar llama ou qwen modificados com a técnica de destilação da Deepseek
    • A demo mostra a pergunta sendo "resolvida" em menos de 500 tokens
    • É importante notar que não se consegue atingir essa velocidade ao lidar com modelos de "raciocínio" em comprimentos de contexto úteis no mundo real (8-16k tokens)
    • Até um epyc com muitos canais cai para cerca de 2-4 t/s depois de um comprimento de contexto de aproximadamente 4096
  • Por £320 dá para comprar 4 Pi 5, mas se você achar uma 3080 usada de 12GB provavelmente vai conseguir mais de 10x a velocidade de tokens
  • O interessante aqui é que dá para executar inferência de llama de forma distribuída entre vários computadores
    • Isso é um cluster Beowulf moderno
  • Não entendi como vários Raspberry Pi estão sendo usados em paralelo. Espero que alguém possa me apontar o caminho nessa direção
  • Se você quiser testar esse modelo no Mac, pode usar o novo plugin llm-mlx e executá-lo assim
    • brew install llm ou pipx install llm ou uv tool install llm
    • llm install llm-mlx
    • llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
    • llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
    • Acabei de rodar e obtive desempenho de 22 tokens/s
  • Fico me perguntando quando vai ser possível fazer apt-get install de todas essas novas tecnologias de IA
  • Fico pensando se adicionar memória ajudaria. Recentemente saiu um Rpi 5 com 16GB de RAM
  • Um produto baseado em LLM, parecido com Alexa ou Google Home, precisaria de um LLM rodando localmente em vez de depender de conexão com a nuvem. Não sei por que isso ainda não existe ou por que ninguém está fazendo isso