Modelo DeepSeek-R1 lançado

(github.com/deepseek-ai)

8 pontos por GN⁺ 2025-01-21 | 5 comentários | Compartilhar no WhatsApp

A DeepSeek lançou os modelos DeepSeek-R1-Zero e DeepSeek-R1, sua primeira geração de modelos de raciocínio
O DeepSeek-R1-Zero foi treinado apenas com aprendizado por reforço (RL) em larga escala e adquiriu por conta própria diversas capacidades de raciocínio
No entanto, como surgiram problemas de repetição/legibilidade e mistura de idiomas, a empresa apresentou o DeepSeek-R1, que adiciona uma etapa de SFT para complementar esses pontos e melhorar o desempenho
O DeepSeek-R1 alcança desempenho no nível do OpenAI-o1 em tarefas de matemática, código e raciocínio
Para apoiar a comunidade de pesquisa, foram abertos o DeepSeek-R1-Zero, o DeepSeek-R1 e modelos de distillation criados a partir da transferência de padrões de raciocínio desses modelos
Em especial, o modelo DeepSeek-R1-Distill-Qwen-32B alcançou desempenho superior ao OpenAI-o1-mini

Resumo dos modelos

Post-Training: aprendizado por reforço em larga escala sobre o modelo base
- O DeepSeek-R1-Zero é um modelo de primeira geração ao qual foi aplicado apenas RL, sem SFT
- Durante o processo de RL, ele adquiriu diversos padrões de raciocínio, como capacidade de explorar Chain-of-thought, autoverificação e reflexão (reflection)
- Isso mostra que “mesmo sem SFT, modelos de grande porte podem obter forte capacidade de raciocínio apenas com RL”
- Com base nesse processo, o DeepSeek-R1 adiciona SFT no meio do treinamento para reforçar ainda mais a capacidade de raciocínio e o uso geral da linguagem
Distillation: modelos menores também podem ser poderosos
- Foi demonstrado que os padrões de raciocínio aprendidos por um modelo grande podem ser transferidos para modelos menores
- Usando dados gerados pelo DeepSeek-R1, foi feito fine-tuning nas séries Qwen e Llama, entre outras, e até modelos densos (dense) menores mostraram ótimo desempenho
- Foram abertos modelos distill em vários tamanhos, como 1.5B, 7B, 8B, 14B, 32B e 70B

Download dos modelos

Modelos DeepSeek-R1

DeepSeek-R1-Zero / DeepSeek-R1
- Parâmetros: 671B no total (37B de parâmetros efetivamente ativos)
- Comprimento de contexto de 128K
- Disponíveis para download no HuggingFace e treinados com RL com base no modelo DeepSeek-V3-Base

Modelos DeepSeek-R1-Distill

Distillation baseada nas séries Qwen2.5 e Llama3
Disponíveis em vários tamanhos de parâmetros, de 1.5B a 70B
Ajustados com dados de raciocínio de alta qualidade gerados pelo DeepSeek-R1
Algumas configurações (tokenizer, config) foram modificadas, portanto é necessário usar as configurações indicadas

Resultados de avaliação

Avaliação do DeepSeek-R1

O DeepSeek-R1 alcançou altas pontuações em inglês (MMLU, DROP etc.), código (Codeforces, LiveCodeBench etc.), matemática (AIME, MATH-500 etc.) e chinês (C-Eval etc.)
Em especial, registrou altos valores de pass@1 em matemática, como em AIME e MATH-500
Em comparação com OpenAI-o1-mini, Claude e GPT-4, mostrou desempenho competitivo em vários itens

Avaliação dos modelos destilados

Os modelos de distillation também mostraram excelentes resultados em benchmarks de matemática (AIME, MATH etc.) e código (Codeforces etc.)
DeepSeek-R1-Distill-Qwen-32B e DeepSeek-R1-Distill-Llama-70B, entre outros, apresentaram altos valores de pass@1 e forte desempenho em resolução de código, sugerindo a viabilidade de uso de modelos menores

Site de chat & plataforma de API

É possível experimentar conversas com o DeepSeek-R1 em chat.deepseek.com
Também é oferecida a plataforma de API compatível com OpenAI platform.deepseek.com

Como executar localmente

Modelos DeepSeek-R1

É possível executar após consultar o repositório do DeepSeek-V3 para verificar detalhes, como a configuração de comprimento máximo de 128K tokens

Modelos DeepSeek-R1-Distill

Podem ser usados da mesma forma que os modelos Qwen e Llama
Ex.: é possível fazer serving rapidamente com vLLM, SGLang etc.
Recomenda-se configurar a temperatura (temperature) em torno de 0.5~0.7

Licença

A série DeepSeek-R1 é distribuída sob a licença MIT
No entanto, é preciso observar que os modelos baseados em Qwen seguem a Apache 2.0, e os baseados em Llama seguem a licença llama3.x
Conta com uma política de licença flexível, incluindo permissão para uso comercial e para modificação e criação de modelos derivados

5 comentários

xguru 2025-01-21

Deepseek - o gigante silencioso que lidera a competição de IA na China
O Deepseek V3 mostrou desempenho ruim em benchmarks que testam se houve overfitting
Notas sobre o DeepSeek v3 - "Ele é realmente melhor que o GPT-4o ou o 3.5 Sonnet?"

crawler 2025-01-21

Já vi gente colocando links de um jeito bonito nos comentários ou citando o texto do post; por acaso existe algum lugar onde a sintaxe que dá para usar nos comentários esteja organizada?

Depois de passar alguns dias por aqui, estou gostando cada vez mais do site, então estou com vontade de comentar também.

savvykang 2025-01-21

https://news.hada.io/guidelines

> Suporte a Markdown
> É compatível tanto no corpo do texto quanto nos comentários.
> Basicamente segue a especificação CommonMark.
> Imagens não são suportadas.

crawler 2025-01-21

Obrigado. Eu ia tentar usar citação em outro comentário, mas como não dava para editar, por segurança acabei não usando. Então o Markdown estava certo mesmo.
Vou usar bastante, haha

GN⁺ 2025-01-21

Comentários do Hacker News

Estou fazendo experimentos usando uma versão quantizada do Llama 3. Executo o modelo com Ollama e o plugin llm-ollama e registro os logs. Depois de carregar o modelo, dá para testar vários prompts usando uvx. Escrevi os resultados dos experimentos no blog.
O DeepSeek-R1-Zero sofria com problemas de repetição, legibilidade e mistura de idiomas. Para resolver isso, foi introduzido o DeepSeek-R1. Em experimentos usando OpenAI o1 e QwQ-32B-Preview, o QwQ tendia a cair em loops de repetição. O DeepSeek-R1 resolve esses problemas. Como é oferecido sob licença MIT, mais pessoas podem avaliá-lo.
Na pergunta sobre quantos "r" há em "strawberry", ele mostra o processo de debater consigo mesmo até chegar à resposta certa. Foi mencionado que esse processo é divertido.
Comparando ChatGPT o1, DeepThink da DeepSeek e Gemini 2.0 Flash Thinking Experimental, o ChatGPT o1 foi o melhor e o DeepSeek foi o mais fraco. Ao testar o DeepSeek-R1, ele mostrou um desempenho melhor do que antes. Para casos de uso pessoais, pareceu que o LLM era mais útil.
Surgiu um benchmark mostrando que o modelo Llama 8B é mais poderoso que o Claude 3.5 Sonnet. Foi expressa surpresa com o fato de um modelo pequeno apresentar um desempenho tão forte.
Foi mencionado que é impressionante que uma pequena empresa fundada há 1 ano consiga competir com a OpenAI. Avaliou-se que a China está à frente dos EUA na área de IA e que, por disponibilizar os modelos como open source, a empresa seria uma verdadeira companhia de "Open AI".
Havia expectativa inicial em relação ao DS3, mas foram encontrados problemas como falhas em function calling, queda na qualidade das respostas e falta de suporte. No entanto, por causa disso, o tráfego em outras APIs diminuiu, melhorando a latência.
Foi expressa confusão sobre a diferença entre as versões 7b e 8b. Foi informado que a versão Qwen 7B foi enviada para o Ollama.

Modelo DeepSeek-R1 lançado

Resumo dos modelos

Download dos modelos

Modelos DeepSeek-R1

Modelos DeepSeek-R1-Distill

Resultados de avaliação

Avaliação do DeepSeek-R1

Avaliação dos modelos destilados

Site de chat & plataforma de API

Como executar localmente

Modelos DeepSeek-R1

Modelos DeepSeek-R1-Distill

Licença

Leituras relacionadas

5 comentários

Comentários do Hacker News