3 pontos por GN⁺ 2025-01-26 | 1 comentários | Compartilhar no WhatsApp
  • DeepSeek-R1: reforço da capacidade de raciocínio de LLMs

    • Apresenta os modelos de raciocínio de primeira geração DeepSeek-R1-Zero e DeepSeek-R1
    • O DeepSeek-R1-Zero foi treinado por meio de aprendizado por reforço em larga escala e demonstrou excelente capacidade de raciocínio mesmo sem ajuste fino supervisionado
    • No entanto, enfrentou desafios como problemas de legibilidade e mistura de idiomas
    • Para resolver esses problemas e melhorar o desempenho de raciocínio, foi introduzido o DeepSeek-R1, incluindo treinamento em múltiplas etapas e uso de dados iniciais antes do aprendizado por reforço
    • O DeepSeek-R1 alcança desempenho semelhante ao OpenAI-o1-1217
    • Para apoiar a comunidade de pesquisa, o DeepSeek-R1-Zero, o DeepSeek-R1 e 6 modelos densos destilados baseados em Qwen e Llama (1.5B, 7B, 8B, 14B, 32B, 70B) são disponibilizados como open source
  • Tópicos e citação

    • Tópicos: Computação e Linguagem (cs.CL); Inteligência Artificial (cs.AI); Aprendizado de Máquina (cs.LG)
    • Citação: arXiv:2501.12948 [cs.CL]
  • Histórico de submissão

    • Autor da submissão: Wenfeng Liang
    • Data de submissão: 22 de janeiro de 2025
  • Formas de acesso

    • É possível acessar o artigo em vários formatos, como PDF, HTML e código-fonte TeX
  • Referências e ferramentas de citação

    • São fornecidas várias referências e ferramentas de citação
  • Código, dados e mídia

    • Código e dados relacionados são fornecidos
  • Informações sobre o arXivLabs

    • São fornecidas explicações e informações de suporte sobre o arXivLabs

1 comentários

 
GN⁺ 2025-01-26
Comentários no Hacker News
  • O artigo do DeepSeek V3 é considerado leitura prévia obrigatória

    • A combinação R1 + Sonnet é superior às outras combinações
    • Vários estudos independentes de reprodução estão sendo conduzidos em diferentes lugares
    • A destilação do R1 é muito fácil, então isso deve acontecer com frequência
    • O DeepSeek-R1 causou grande repercussão no Vale do Silício
  • Ao usar o modelo r1-14b do Ollama, parece que o modelo tenta diferentes abordagens em tempo real e escolhe alternativas, o que lembra o comportamento humano

  • O DeepSeek V3 apareceu no momento certo, quando o Claude Sonnet começou a apresentar problemas

    • O preço do DeepSeek é muito barato, o que se torna uma grande vantagem
    • Migrei completamente para o DeepSeek no Aider e no Cursor
  • O recurso de chat do DeepSeek é mais fácil de usar do que o ChatGPT Pro

    • Poder ler o processo de raciocínio do modelo facilita a depuração
  • Surpreende que o processo de raciocínio do modelo GPT-O1 aconteça internamente no próprio modelo

    • Fico me perguntando se a OpenAI vai divulgar o processo de raciocínio do O1
  • Não só o desempenho do DeepSeek R1 é impressionante, como também os pequenos modelos destilados

    • O modelo destilado 7b baseado em Qwen também é excelente
    • O modelo destilado 32b é usado como modelo padrão em um servidor doméstico
  • Larry Ellison e Masayoshi Son têm a longevidade como objetivo por meio da ASI

    • Estão fazendo investimentos massivos para desenvolver ASI
  • No arXiv, mais de 100 autores publicaram um artigo usando o nome da equipe

    • Isso contribui para aumentar o trabalho em equipe e o moral