Executando o modelo DeepSeek-R1 Dynamic de 1,58 bit

(unsloth.ai)

17 pontos por GN⁺ 2025-01-29 | 1 comentários | Compartilhar no WhatsApp

O DeepSeek-R1 é um modelo open source com desempenho comparável ao modelo de raciocínio O1 da OpenAI
O modelo, originalmente com 720GB, foi reduzido para 131GB, alcançando uma redução de 80% no tamanho
Usa uma técnica de quantização dinâmica em que algumas camadas são mantidas em bits mais altos (por exemplo, 4bit) e a maioria das camadas MoE (Mixture of Experts) é processada em 1,58bit

Principais características

Especificação mínima: pode rodar em CPU com 20GB de RAM, mas com velocidade baixa
Desempenho ideal: requer no mínimo 80GB somando VRAM e RAM; a VRAM recomendada é de 160GB (2 GPUs H100 de 80GB)
As versões com quantização dinâmica (131GB~212GB) estão disponíveis no Hugging Face: DeepSeek-R1-GGUF

Tipos de modelos com quantização dinâmica

Há 4 versões de quantização disponíveis:
- 131GB, 158GB, 183GB, 212GB (2bit comum)
A quantização é otimizada com uso da matriz de importância (imatrix)
O método de quantização e os requisitos de hardware variam conforme o modelo

Benchmark e testes de desempenho

As pontuações de 10 critérios de avaliação foram medidas com base na geração do jogo Flappy Bird (pass@3)
As pontuações do modelo com quantização dinâmica de 1,58bit são as seguintes:
- Modelo de 131GB: 6.92
- Modelo de 158GB: 9.08
- Modelo de 183GB: 9.17
Modelos sem quantização dinâmica geram erros repetitivos ou resultados incorretos

Aproveitamento da arquitetura do DeepSeek-R1

A análise da arquitetura do DeepSeek-R1 permite manter em alta resolução as partes com maior sensibilidade à quantização
- As 3 primeiras camadas densas (dense) são mantidas em 4~6bit
- As camadas MoE são, em sua maioria, quantizadas em 1,58bit
- O módulo MLA (Memory Layers Attention) e a parte down_proj são mantidos com maior precisão
Aproximadamente 88% dos pesos foram quantizados em 1,58bit, reduzindo o tamanho do modelo

Solução para problemas de template de chat e processamento de tokens

Em todas as versões, o template de chat usa os tokens <|begin_of_sentence|> e <|end_of_sentence|>
O token EOS estava configurado incorretamente, causando geração infinita, mas isso já foi corrigido

1 comentários

GN⁺ 2025-01-29

Comentários no Hacker News

Uma redução de 80% no tamanho é um resultado surpreendente, e é impressionante que a versão de 1,58 bit rode a 140 tokens/s em um setup dual H100. Mas é questionável o quão prático isso é para a maioria das pessoas. Dá para rodar com 24 GB de VRAM ou 20 GB de RAM, mas a velocidade é lenta demais. Também há o problema de repetição. A repetição no Pygame esvazia o sentido da quantização. Existem soluções, mas elas não resolvem o problema fundamental. O fato de terem tornado isso acessível no Hugging Face e a abordagem de quantização dinâmica são excelentes. Isso favorece equipes pequenas. Ainda assim, exige hardware caro.
Quando rodei o DeepSeek em uma RTX 4090, o modelo cabia na VRAM, mas era lento. A arquitetura de memória unificada da Apple leva vantagem. Um Mx Ultra com 192 GB consegue lidar com modelos grandes de forma eficiente. Está na hora de cancelar a assinatura da OpenAI.
A redução de 80% no tamanho do DeepSeek-R1 é surpreendente. Modelos grandes estão se tornando mais acessíveis para mais gente. A velocidade de 140 tokens/s em dual H100 com quantização de 1,58 bit é impressionante. Empresas pequenas ou médias podem usar isso em aplicações locais. É uma grande vantagem para tarefas de agentes que exigem baixa latência.
A soma de VRAM + RAM precisa ser de pelo menos 80 GB para entregar desempenho ideal. Dá para tentar em um servidor de baixo consumo e baixo custo. É possível montar um sistema com Ryzen 5500 + 64 GB de RAM + 7x RTX 3060 12 GB por 1600 euros. O consumo de energia fica em cerca de 520 watts. Começa-se com uma placa AM4 e uma RTX 3060 12 GB usada. As GPUs adicionais são conectadas com risers/extensores PCIe. É bom para aprender e ganhar experiência.
Se todas as camadas forem quantizadas para 1,58 bit, ocorre repetição infinita. É interessante o processo pelo qual os autores deste post encontraram seeds específicas. Bom trabalho.
A avaliação sobre o R1 ainda não está clara. A alegação de que ele foi treinado com $5M está causando grande impacto no mercado. Fico curioso se isso já foi verificado.
Se você investiu em uma máquina 100x e seria possível fazer isso com uma 10x, não entendo por que não ter 10 máquinas 10x. É possível reutilizar hardware e dados para criar várias instâncias de modelos mais eficientes.
O trabalho do Danielhanchen é impressionante. O Unsloth é excelente, e a capacidade de se adaptar rapidamente a novos modelos e corrigir bugs da implementação base é surpreendente. Um laboratório sério deveria dar algumas horas de vantagem.
A redução no tamanho do modelo e a manutenção da consistência são surpreendentes. Mas fico em dúvida sobre quanto da eficácia foi preservado. Flappy Bird é um jogo bem conhecido, mas um teste melhor seria ver se R1 e o1 conseguem resolver problemas que outros modelos não conseguem.
Seria ótimo se o próximo modelo base fosse projetado para fazer inferência com quantização de 8 bits em 128 GB de VRAM. Por exemplo, uma base MoE poderosa com 16 bilhões de parâmetros ativos e 6 ou 7 especialistas poderia rodar em um MacBook com 128 GB de RAM.

Executando o modelo DeepSeek-R1 Dynamic de 1,58 bit

Principais características

Tipos de modelos com quantização dinâmica

Benchmark e testes de desempenho

Aproveitamento da arquitetura do DeepSeek-R1

Solução para problemas de template de chat e processamento de tokens

Leituras relacionadas

1 comentários

Comentários no Hacker News