-
DeepSeek-R1: reforço da capacidade de raciocínio de LLMs
- Apresenta os modelos de raciocínio de primeira geração DeepSeek-R1-Zero e DeepSeek-R1
- O DeepSeek-R1-Zero foi treinado por meio de aprendizado por reforço em larga escala e demonstrou excelente capacidade de raciocínio mesmo sem ajuste fino supervisionado
- No entanto, enfrentou desafios como problemas de legibilidade e mistura de idiomas
- Para resolver esses problemas e melhorar o desempenho de raciocínio, foi introduzido o DeepSeek-R1, incluindo treinamento em múltiplas etapas e uso de dados iniciais antes do aprendizado por reforço
- O DeepSeek-R1 alcança desempenho semelhante ao OpenAI-o1-1217
- Para apoiar a comunidade de pesquisa, o DeepSeek-R1-Zero, o DeepSeek-R1 e 6 modelos densos destilados baseados em Qwen e Llama (1.5B, 7B, 8B, 14B, 32B, 70B) são disponibilizados como open source
-
Tópicos e citação
- Tópicos: Computação e Linguagem (cs.CL); Inteligência Artificial (cs.AI); Aprendizado de Máquina (cs.LG)
- Citação: arXiv:2501.12948 [cs.CL]
-
Histórico de submissão
- Autor da submissão: Wenfeng Liang
- Data de submissão: 22 de janeiro de 2025
-
Formas de acesso
- É possível acessar o artigo em vários formatos, como PDF, HTML e código-fonte TeX
-
Referências e ferramentas de citação
- São fornecidas várias referências e ferramentas de citação
-
Código, dados e mídia
- Código e dados relacionados são fornecidos
-
Informações sobre o arXivLabs
- São fornecidas explicações e informações de suporte sobre o arXivLabs
1 comentários
Comentários no Hacker News
O artigo do DeepSeek V3 é considerado leitura prévia obrigatória
Ao usar o modelo
r1-14bdo Ollama, parece que o modelo tenta diferentes abordagens em tempo real e escolhe alternativas, o que lembra o comportamento humanoO DeepSeek V3 apareceu no momento certo, quando o Claude Sonnet começou a apresentar problemas
O recurso de chat do DeepSeek é mais fácil de usar do que o ChatGPT Pro
Surpreende que o processo de raciocínio do modelo GPT-O1 aconteça internamente no próprio modelo
Não só o desempenho do DeepSeek R1 é impressionante, como também os pequenos modelos destilados
Larry Ellison e Masayoshi Son têm a longevidade como objetivo por meio da ASI
No arXiv, mais de 100 autores publicaram um artigo usando o nome da equipe