17 pontos por GN⁺ 2025-01-29 | 1 comentários | Compartilhar no WhatsApp
  • O DeepSeek-R1 é um modelo open source com desempenho comparável ao modelo de raciocínio O1 da OpenAI
  • O modelo, originalmente com 720GB, foi reduzido para 131GB, alcançando uma redução de 80% no tamanho
  • Usa uma técnica de quantização dinâmica em que algumas camadas são mantidas em bits mais altos (por exemplo, 4bit) e a maioria das camadas MoE (Mixture of Experts) é processada em 1,58bit

Principais características

  • Especificação mínima: pode rodar em CPU com 20GB de RAM, mas com velocidade baixa
  • Desempenho ideal: requer no mínimo 80GB somando VRAM e RAM; a VRAM recomendada é de 160GB (2 GPUs H100 de 80GB)
  • As versões com quantização dinâmica (131GB~212GB) estão disponíveis no Hugging Face: DeepSeek-R1-GGUF

Tipos de modelos com quantização dinâmica

  • Há 4 versões de quantização disponíveis:
    • 131GB, 158GB, 183GB, 212GB (2bit comum)
  • A quantização é otimizada com uso da matriz de importância (imatrix)
  • O método de quantização e os requisitos de hardware variam conforme o modelo

Benchmark e testes de desempenho

  • As pontuações de 10 critérios de avaliação foram medidas com base na geração do jogo Flappy Bird (pass@3)
  • As pontuações do modelo com quantização dinâmica de 1,58bit são as seguintes:
    • Modelo de 131GB: 6.92
    • Modelo de 158GB: 9.08
    • Modelo de 183GB: 9.17
  • Modelos sem quantização dinâmica geram erros repetitivos ou resultados incorretos

Aproveitamento da arquitetura do DeepSeek-R1

  • A análise da arquitetura do DeepSeek-R1 permite manter em alta resolução as partes com maior sensibilidade à quantização
    • As 3 primeiras camadas densas (dense) são mantidas em 4~6bit
    • As camadas MoE são, em sua maioria, quantizadas em 1,58bit
    • O módulo MLA (Memory Layers Attention) e a parte down_proj são mantidos com maior precisão
  • Aproximadamente 88% dos pesos foram quantizados em 1,58bit, reduzindo o tamanho do modelo

Solução para problemas de template de chat e processamento de tokens

  • Em todas as versões, o template de chat usa os tokens <|begin_of_sentence|> e <|end_of_sentence|>
  • O token EOS estava configurado incorretamente, causando geração infinita, mas isso já foi corrigido

1 comentários

 
GN⁺ 2025-01-29
Comentários no Hacker News
  • Uma redução de 80% no tamanho é um resultado surpreendente, e é impressionante que a versão de 1,58 bit rode a 140 tokens/s em um setup dual H100. Mas é questionável o quão prático isso é para a maioria das pessoas. Dá para rodar com 24 GB de VRAM ou 20 GB de RAM, mas a velocidade é lenta demais. Também há o problema de repetição. A repetição no Pygame esvazia o sentido da quantização. Existem soluções, mas elas não resolvem o problema fundamental. O fato de terem tornado isso acessível no Hugging Face e a abordagem de quantização dinâmica são excelentes. Isso favorece equipes pequenas. Ainda assim, exige hardware caro.

  • Quando rodei o DeepSeek em uma RTX 4090, o modelo cabia na VRAM, mas era lento. A arquitetura de memória unificada da Apple leva vantagem. Um Mx Ultra com 192 GB consegue lidar com modelos grandes de forma eficiente. Está na hora de cancelar a assinatura da OpenAI.

  • A redução de 80% no tamanho do DeepSeek-R1 é surpreendente. Modelos grandes estão se tornando mais acessíveis para mais gente. A velocidade de 140 tokens/s em dual H100 com quantização de 1,58 bit é impressionante. Empresas pequenas ou médias podem usar isso em aplicações locais. É uma grande vantagem para tarefas de agentes que exigem baixa latência.

  • A soma de VRAM + RAM precisa ser de pelo menos 80 GB para entregar desempenho ideal. Dá para tentar em um servidor de baixo consumo e baixo custo. É possível montar um sistema com Ryzen 5500 + 64 GB de RAM + 7x RTX 3060 12 GB por 1600 euros. O consumo de energia fica em cerca de 520 watts. Começa-se com uma placa AM4 e uma RTX 3060 12 GB usada. As GPUs adicionais são conectadas com risers/extensores PCIe. É bom para aprender e ganhar experiência.

  • Se todas as camadas forem quantizadas para 1,58 bit, ocorre repetição infinita. É interessante o processo pelo qual os autores deste post encontraram seeds específicas. Bom trabalho.

  • A avaliação sobre o R1 ainda não está clara. A alegação de que ele foi treinado com $5M está causando grande impacto no mercado. Fico curioso se isso já foi verificado.

  • Se você investiu em uma máquina 100x e seria possível fazer isso com uma 10x, não entendo por que não ter 10 máquinas 10x. É possível reutilizar hardware e dados para criar várias instâncias de modelos mais eficientes.

  • O trabalho do Danielhanchen é impressionante. O Unsloth é excelente, e a capacidade de se adaptar rapidamente a novos modelos e corrigir bugs da implementação base é surpreendente. Um laboratório sério deveria dar algumas horas de vantagem.

  • A redução no tamanho do modelo e a manutenção da consistência são surpreendentes. Mas fico em dúvida sobre quanto da eficácia foi preservado. Flappy Bird é um jogo bem conhecido, mas um teste melhor seria ver se R1 e o1 conseguem resolver problemas que outros modelos não conseguem.

  • Seria ótimo se o próximo modelo base fosse projetado para fazer inferência com quantização de 8 bits em 128 GB de VRAM. Por exemplo, uma base MoE poderosa com 16 bilhões de parâmetros ativos e 6 ou 7 especialistas poderia rodar em um MacBook com 128 GB de RAM.