8 pontos por GN⁺ 2025-01-21 | 5 comentários | Compartilhar no WhatsApp
  • A DeepSeek lançou os modelos DeepSeek-R1-Zero e DeepSeek-R1, sua primeira geração de modelos de raciocínio
  • O DeepSeek-R1-Zero foi treinado apenas com aprendizado por reforço (RL) em larga escala e adquiriu por conta própria diversas capacidades de raciocínio
  • No entanto, como surgiram problemas de repetição/legibilidade e mistura de idiomas, a empresa apresentou o DeepSeek-R1, que adiciona uma etapa de SFT para complementar esses pontos e melhorar o desempenho
  • O DeepSeek-R1 alcança desempenho no nível do OpenAI-o1 em tarefas de matemática, código e raciocínio
  • Para apoiar a comunidade de pesquisa, foram abertos o DeepSeek-R1-Zero, o DeepSeek-R1 e modelos de distillation criados a partir da transferência de padrões de raciocínio desses modelos
  • Em especial, o modelo DeepSeek-R1-Distill-Qwen-32B alcançou desempenho superior ao OpenAI-o1-mini

Resumo dos modelos

  • Post-Training: aprendizado por reforço em larga escala sobre o modelo base

    • O DeepSeek-R1-Zero é um modelo de primeira geração ao qual foi aplicado apenas RL, sem SFT
    • Durante o processo de RL, ele adquiriu diversos padrões de raciocínio, como capacidade de explorar Chain-of-thought, autoverificação e reflexão (reflection)
    • Isso mostra que “mesmo sem SFT, modelos de grande porte podem obter forte capacidade de raciocínio apenas com RL”
    • Com base nesse processo, o DeepSeek-R1 adiciona SFT no meio do treinamento para reforçar ainda mais a capacidade de raciocínio e o uso geral da linguagem
  • Distillation: modelos menores também podem ser poderosos

    • Foi demonstrado que os padrões de raciocínio aprendidos por um modelo grande podem ser transferidos para modelos menores
    • Usando dados gerados pelo DeepSeek-R1, foi feito fine-tuning nas séries Qwen e Llama, entre outras, e até modelos densos (dense) menores mostraram ótimo desempenho
    • Foram abertos modelos distill em vários tamanhos, como 1.5B, 7B, 8B, 14B, 32B e 70B

Download dos modelos

Modelos DeepSeek-R1

  • DeepSeek-R1-Zero / DeepSeek-R1
    • Parâmetros: 671B no total (37B de parâmetros efetivamente ativos)
    • Comprimento de contexto de 128K
    • Disponíveis para download no HuggingFace e treinados com RL com base no modelo DeepSeek-V3-Base

Modelos DeepSeek-R1-Distill

  • Distillation baseada nas séries Qwen2.5 e Llama3
  • Disponíveis em vários tamanhos de parâmetros, de 1.5B a 70B
  • Ajustados com dados de raciocínio de alta qualidade gerados pelo DeepSeek-R1
  • Algumas configurações (tokenizer, config) foram modificadas, portanto é necessário usar as configurações indicadas

Resultados de avaliação

Avaliação do DeepSeek-R1

  • O DeepSeek-R1 alcançou altas pontuações em inglês (MMLU, DROP etc.), código (Codeforces, LiveCodeBench etc.), matemática (AIME, MATH-500 etc.) e chinês (C-Eval etc.)
  • Em especial, registrou altos valores de pass@1 em matemática, como em AIME e MATH-500
  • Em comparação com OpenAI-o1-mini, Claude e GPT-4, mostrou desempenho competitivo em vários itens

Avaliação dos modelos destilados

  • Os modelos de distillation também mostraram excelentes resultados em benchmarks de matemática (AIME, MATH etc.) e código (Codeforces etc.)
  • DeepSeek-R1-Distill-Qwen-32B e DeepSeek-R1-Distill-Llama-70B, entre outros, apresentaram altos valores de pass@1 e forte desempenho em resolução de código, sugerindo a viabilidade de uso de modelos menores

Site de chat & plataforma de API

Como executar localmente

Modelos DeepSeek-R1

  • É possível executar após consultar o repositório do DeepSeek-V3 para verificar detalhes, como a configuração de comprimento máximo de 128K tokens

Modelos DeepSeek-R1-Distill

  • Podem ser usados da mesma forma que os modelos Qwen e Llama
  • Ex.: é possível fazer serving rapidamente com vLLM, SGLang etc.
  • Recomenda-se configurar a temperatura (temperature) em torno de 0.5~0.7

Licença

  • A série DeepSeek-R1 é distribuída sob a licença MIT
  • No entanto, é preciso observar que os modelos baseados em Qwen seguem a Apache 2.0, e os baseados em Llama seguem a licença llama3.x
  • Conta com uma política de licença flexível, incluindo permissão para uso comercial e para modificação e criação de modelos derivados

5 comentários

 
crawler 2025-01-21

Já vi gente colocando links de um jeito bonito nos comentários ou citando o texto do post; por acaso existe algum lugar onde a sintaxe que dá para usar nos comentários esteja organizada?

Depois de passar alguns dias por aqui, estou gostando cada vez mais do site, então estou com vontade de comentar também.

 
savvykang 2025-01-21

https://news.hada.io/guidelines

> Suporte a Markdown
> É compatível tanto no corpo do texto quanto nos comentários.
> Basicamente segue a especificação CommonMark.
> Imagens não são suportadas.

 
crawler 2025-01-21

Obrigado. Eu ia tentar usar citação em outro comentário, mas como não dava para editar, por segurança acabei não usando. Então o Markdown estava certo mesmo.
Vou usar bastante, haha

 
GN⁺ 2025-01-21
Comentários do Hacker News
  • Estou fazendo experimentos usando uma versão quantizada do Llama 3. Executo o modelo com Ollama e o plugin llm-ollama e registro os logs. Depois de carregar o modelo, dá para testar vários prompts usando uvx. Escrevi os resultados dos experimentos no blog.

  • O DeepSeek-R1-Zero sofria com problemas de repetição, legibilidade e mistura de idiomas. Para resolver isso, foi introduzido o DeepSeek-R1. Em experimentos usando OpenAI o1 e QwQ-32B-Preview, o QwQ tendia a cair em loops de repetição. O DeepSeek-R1 resolve esses problemas. Como é oferecido sob licença MIT, mais pessoas podem avaliá-lo.

  • Na pergunta sobre quantos "r" há em "strawberry", ele mostra o processo de debater consigo mesmo até chegar à resposta certa. Foi mencionado que esse processo é divertido.

  • Comparando ChatGPT o1, DeepThink da DeepSeek e Gemini 2.0 Flash Thinking Experimental, o ChatGPT o1 foi o melhor e o DeepSeek foi o mais fraco. Ao testar o DeepSeek-R1, ele mostrou um desempenho melhor do que antes. Para casos de uso pessoais, pareceu que o LLM era mais útil.

  • Surgiu um benchmark mostrando que o modelo Llama 8B é mais poderoso que o Claude 3.5 Sonnet. Foi expressa surpresa com o fato de um modelo pequeno apresentar um desempenho tão forte.

  • Foi mencionado que é impressionante que uma pequena empresa fundada há 1 ano consiga competir com a OpenAI. Avaliou-se que a China está à frente dos EUA na área de IA e que, por disponibilizar os modelos como open source, a empresa seria uma verdadeira companhia de "Open AI".

  • Havia expectativa inicial em relação ao DS3, mas foram encontrados problemas como falhas em function calling, queda na qualidade das respostas e falta de suporte. No entanto, por causa disso, o tráfego em outras APIs diminuiu, melhorando a latência.

  • Foi expressa confusão sobre a diferença entre as versões 7b e 8b. Foi informado que a versão Qwen 7B foi enviada para o Ollama.