DeepSeek-R1: aprimorando a capacidade de raciocínio de grandes modelos de linguagem por meio de aprendizado por reforço

(arxiv.org)

3 pontos por GN⁺ 2025-01-26 | 1 comentários | Compartilhar no WhatsApp

DeepSeek-R1: reforço da capacidade de raciocínio de LLMs
- Apresenta os modelos de raciocínio de primeira geração DeepSeek-R1-Zero e DeepSeek-R1
- O DeepSeek-R1-Zero foi treinado por meio de aprendizado por reforço em larga escala e demonstrou excelente capacidade de raciocínio mesmo sem ajuste fino supervisionado
- No entanto, enfrentou desafios como problemas de legibilidade e mistura de idiomas
- Para resolver esses problemas e melhorar o desempenho de raciocínio, foi introduzido o DeepSeek-R1, incluindo treinamento em múltiplas etapas e uso de dados iniciais antes do aprendizado por reforço
- O DeepSeek-R1 alcança desempenho semelhante ao OpenAI-o1-1217
- Para apoiar a comunidade de pesquisa, o DeepSeek-R1-Zero, o DeepSeek-R1 e 6 modelos densos destilados baseados em Qwen e Llama (1.5B, 7B, 8B, 14B, 32B, 70B) são disponibilizados como open source
Tópicos e citação
- Tópicos: Computação e Linguagem (cs.CL); Inteligência Artificial (cs.AI); Aprendizado de Máquina (cs.LG)
- Citação: arXiv:2501.12948 [cs.CL]
Histórico de submissão
- Autor da submissão: Wenfeng Liang
- Data de submissão: 22 de janeiro de 2025
Formas de acesso
- É possível acessar o artigo em vários formatos, como PDF, HTML e código-fonte TeX
Referências e ferramentas de citação
- São fornecidas várias referências e ferramentas de citação
Código, dados e mídia
- Código e dados relacionados são fornecidos
Informações sobre o arXivLabs
- São fornecidas explicações e informações de suporte sobre o arXivLabs

1 comentários

GN⁺ 2025-01-26

Comentários no Hacker News

O artigo do DeepSeek V3 é considerado leitura prévia obrigatória
- A combinação R1 + Sonnet é superior às outras combinações
- Vários estudos independentes de reprodução estão sendo conduzidos em diferentes lugares
- A destilação do R1 é muito fácil, então isso deve acontecer com frequência
- O DeepSeek-R1 causou grande repercussão no Vale do Silício
Ao usar o modelo r1-14b do Ollama, parece que o modelo tenta diferentes abordagens em tempo real e escolhe alternativas, o que lembra o comportamento humano
O DeepSeek V3 apareceu no momento certo, quando o Claude Sonnet começou a apresentar problemas
- O preço do DeepSeek é muito barato, o que se torna uma grande vantagem
- Migrei completamente para o DeepSeek no Aider e no Cursor
O recurso de chat do DeepSeek é mais fácil de usar do que o ChatGPT Pro
- Poder ler o processo de raciocínio do modelo facilita a depuração
Surpreende que o processo de raciocínio do modelo GPT-O1 aconteça internamente no próprio modelo
- Fico me perguntando se a OpenAI vai divulgar o processo de raciocínio do O1
Não só o desempenho do DeepSeek R1 é impressionante, como também os pequenos modelos destilados
- O modelo destilado 7b baseado em Qwen também é excelente
- O modelo destilado 32b é usado como modelo padrão em um servidor doméstico
Larry Ellison e Masayoshi Son têm a longevidade como objetivo por meio da ASI
- Estão fazendo investimentos massivos para desenvolver ASI
No arXiv, mais de 100 autores publicaram um artigo usando o nome da equipe
- Isso contribui para aumentar o trabalho em equipe e o moral

DeepSeek-R1: aprimorando a capacidade de raciocínio de grandes modelos de linguagem por meio de aprendizado por reforço

DeepSeek-R1: reforço da capacidade de raciocínio de LLMs

Tópicos e citação

Histórico de submissão

Formas de acesso

Referências e ferramentas de citação

Código, dados e mídia

Informações sobre o arXivLabs

Leituras relacionadas

1 comentários

Comentários no Hacker News