Modelo DeepSeek-R1 lançado
(github.com/deepseek-ai)- A DeepSeek lançou os modelos DeepSeek-R1-Zero e DeepSeek-R1, sua primeira geração de modelos de raciocínio
- O DeepSeek-R1-Zero foi treinado apenas com aprendizado por reforço (RL) em larga escala e adquiriu por conta própria diversas capacidades de raciocínio
- No entanto, como surgiram problemas de repetição/legibilidade e mistura de idiomas, a empresa apresentou o DeepSeek-R1, que adiciona uma etapa de SFT para complementar esses pontos e melhorar o desempenho
- O DeepSeek-R1 alcança desempenho no nível do OpenAI-o1 em tarefas de matemática, código e raciocínio
- Para apoiar a comunidade de pesquisa, foram abertos o DeepSeek-R1-Zero, o DeepSeek-R1 e modelos de distillation criados a partir da transferência de padrões de raciocínio desses modelos
- Em especial, o modelo DeepSeek-R1-Distill-Qwen-32B alcançou desempenho superior ao OpenAI-o1-mini
Resumo dos modelos
-
Post-Training: aprendizado por reforço em larga escala sobre o modelo base
- O DeepSeek-R1-Zero é um modelo de primeira geração ao qual foi aplicado apenas RL, sem SFT
- Durante o processo de RL, ele adquiriu diversos padrões de raciocínio, como capacidade de explorar Chain-of-thought, autoverificação e reflexão (
reflection) - Isso mostra que “mesmo sem SFT, modelos de grande porte podem obter forte capacidade de raciocínio apenas com RL”
- Com base nesse processo, o DeepSeek-R1 adiciona SFT no meio do treinamento para reforçar ainda mais a capacidade de raciocínio e o uso geral da linguagem
-
Distillation: modelos menores também podem ser poderosos
- Foi demonstrado que os padrões de raciocínio aprendidos por um modelo grande podem ser transferidos para modelos menores
- Usando dados gerados pelo DeepSeek-R1, foi feito fine-tuning nas séries Qwen e Llama, entre outras, e até modelos densos (
dense) menores mostraram ótimo desempenho - Foram abertos modelos distill em vários tamanhos, como 1.5B, 7B, 8B, 14B, 32B e 70B
Download dos modelos
Modelos DeepSeek-R1
- DeepSeek-R1-Zero / DeepSeek-R1
- Parâmetros: 671B no total (37B de parâmetros efetivamente ativos)
- Comprimento de contexto de 128K
- Disponíveis para download no HuggingFace e treinados com RL com base no modelo DeepSeek-V3-Base
Modelos DeepSeek-R1-Distill
- Distillation baseada nas séries Qwen2.5 e Llama3
- Disponíveis em vários tamanhos de parâmetros, de 1.5B a 70B
- Ajustados com dados de raciocínio de alta qualidade gerados pelo DeepSeek-R1
- Algumas configurações (
tokenizer,config) foram modificadas, portanto é necessário usar as configurações indicadas
Resultados de avaliação
Avaliação do DeepSeek-R1
- O DeepSeek-R1 alcançou altas pontuações em inglês (MMLU, DROP etc.), código (Codeforces, LiveCodeBench etc.), matemática (AIME, MATH-500 etc.) e chinês (C-Eval etc.)
- Em especial, registrou altos valores de
pass@1em matemática, como em AIME e MATH-500 - Em comparação com OpenAI-o1-mini, Claude e GPT-4, mostrou desempenho competitivo em vários itens
Avaliação dos modelos destilados
- Os modelos de distillation também mostraram excelentes resultados em benchmarks de matemática (AIME, MATH etc.) e código (Codeforces etc.)
- DeepSeek-R1-Distill-Qwen-32B e DeepSeek-R1-Distill-Llama-70B, entre outros, apresentaram altos valores de
pass@1e forte desempenho em resolução de código, sugerindo a viabilidade de uso de modelos menores
Site de chat & plataforma de API
- É possível experimentar conversas com o DeepSeek-R1 em chat.deepseek.com
- Também é oferecida a plataforma de API compatível com OpenAI platform.deepseek.com
Como executar localmente
Modelos DeepSeek-R1
- É possível executar após consultar o repositório do DeepSeek-V3 para verificar detalhes, como a configuração de comprimento máximo de 128K tokens
Modelos DeepSeek-R1-Distill
- Podem ser usados da mesma forma que os modelos Qwen e Llama
- Ex.: é possível fazer serving rapidamente com vLLM, SGLang etc.
- Recomenda-se configurar a temperatura (
temperature) em torno de 0.5~0.7
Licença
- A série DeepSeek-R1 é distribuída sob a licença MIT
- No entanto, é preciso observar que os modelos baseados em Qwen seguem a Apache 2.0, e os baseados em Llama seguem a licença llama3.x
- Conta com uma política de licença flexível, incluindo permissão para uso comercial e para modificação e criação de modelos derivados
5 comentários
Deepseek - o gigante silencioso que lidera a competição de IA na China
O Deepseek V3 mostrou desempenho ruim em benchmarks que testam se houve overfitting
Notas sobre o DeepSeek v3 - "Ele é realmente melhor que o GPT-4o ou o 3.5 Sonnet?"
Já vi gente colocando links de um jeito bonito nos comentários ou citando o texto do post; por acaso existe algum lugar onde a sintaxe que dá para usar nos comentários esteja organizada?
Depois de passar alguns dias por aqui, estou gostando cada vez mais do site, então estou com vontade de comentar também.
https://news.hada.io/guidelines
> Suporte a Markdown
> É compatível tanto no corpo do texto quanto nos comentários.
> Basicamente segue a especificação CommonMark.
> Imagens não são suportadas.
Obrigado. Eu ia tentar usar citação em outro comentário, mas como não dava para editar, por segurança acabei não usando. Então o Markdown estava certo mesmo.
Vou usar bastante, haha
Comentários do Hacker News
Estou fazendo experimentos usando uma versão quantizada do Llama 3. Executo o modelo com Ollama e o plugin llm-ollama e registro os logs. Depois de carregar o modelo, dá para testar vários prompts usando
uvx. Escrevi os resultados dos experimentos no blog.O DeepSeek-R1-Zero sofria com problemas de repetição, legibilidade e mistura de idiomas. Para resolver isso, foi introduzido o DeepSeek-R1. Em experimentos usando OpenAI o1 e QwQ-32B-Preview, o QwQ tendia a cair em loops de repetição. O DeepSeek-R1 resolve esses problemas. Como é oferecido sob licença MIT, mais pessoas podem avaliá-lo.
Na pergunta sobre quantos "r" há em "strawberry", ele mostra o processo de debater consigo mesmo até chegar à resposta certa. Foi mencionado que esse processo é divertido.
Comparando ChatGPT o1, DeepThink da DeepSeek e Gemini 2.0 Flash Thinking Experimental, o ChatGPT o1 foi o melhor e o DeepSeek foi o mais fraco. Ao testar o DeepSeek-R1, ele mostrou um desempenho melhor do que antes. Para casos de uso pessoais, pareceu que o LLM era mais útil.
Surgiu um benchmark mostrando que o modelo Llama 8B é mais poderoso que o Claude 3.5 Sonnet. Foi expressa surpresa com o fato de um modelo pequeno apresentar um desempenho tão forte.
Foi mencionado que é impressionante que uma pequena empresa fundada há 1 ano consiga competir com a OpenAI. Avaliou-se que a China está à frente dos EUA na área de IA e que, por disponibilizar os modelos como open source, a empresa seria uma verdadeira companhia de "Open AI".
Havia expectativa inicial em relação ao DS3, mas foram encontrados problemas como falhas em function calling, queda na qualidade das respostas e falta de suporte. No entanto, por causa disso, o tráfego em outras APIs diminuiu, melhorando a latência.
Foi expressa confusão sobre a diferença entre as versões 7b e 8b. Foi informado que a versão Qwen 7B foi enviada para o Ollama.