5 pontos por GN⁺ 2025-01-22 | 4 comentários | Compartilhar no WhatsApp
  • O R1, modelo de raciocínio de primeira geração da DeepSeek, oferece desempenho comparável ao OpenAI-o1
    • Apresenta excelente desempenho em tarefas de matemática, código e raciocínio
  • Modelos disponíveis em vários tamanhos: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • Cada modelo é otimizado para tarefas específicas
  • Licença
    • Disponível sob a licença MIT
    • Pode ser usado gratuitamente, inclusive para fins comerciais

4 comentários

 
gadget5 2025-01-22

Se você perguntar ao R1 sobre sua identidade, ele responde que não tem absolutamente nenhuma relação com a DeepSeek e que é o OpenAI GPT.

 
mse9000 2025-01-31

É meio estranho responder que os dados de treinamento vão até outubro de 2023..

 
GN⁺ 2025-01-22
Comentários no Hacker News
  • O DeepSeek V3 parece reconhecer sensibilidades políticas. À pergunta "Pelo que a Praça da Paz Celestial é famosa?", respondeu "Desculpe, isso está fora do meu escopo no momento"

    • Entendo que mudanças sejam necessárias para administrar realidades políticas, mas me incomoda que um LLM minta sobre esse tipo de assunto
    • Fico me perguntando se há planos de abrir em código aberto uma lista das mudanças introduzidas no modelo por motivos políticos
    • Tornar o modelo politicamente correto é uma coisa; encobrir um massacre é outra. Esse é um caminho muito perigoso, e não vai parar por aí
  • Pelo artigo do R1, se os benchmarks estiverem corretos, até mesmo os modelos 1.5b e 7b superam o Claude 3.5 Sonnet. É impressionante poder rodar esses modelos em um MacBook com 8-16GB

  • O título está errado. Só os modelos destilados de llama e qwen estão no ollama; não é o modelo oficial MoE r1 do deepseekv3

  • Se você perguntar ao modelo 1.5b "como inverter uma lista em Python", ele continua despejando pensamentos sem parar. Nem chega a se repetir. Interessante

  • Falta documentação. A descrição do projeto inteiro parece ser apenas "comece com modelos de linguagem grandes"

    • Tenho várias perguntas antes de instalar, como se ele está preso a uma interface cliente, quais são os requisitos de sistema etc.
  • É impressionante que esse modelo possa rodar em um notebook de 3 anos

    • Ele fornece um exemplo de como escrever uma função que soma dois números em Rust
    • Em Rust, usa-se a palavra-chave fn para definir uma função. Como o tipo dos números não foi especificado, ele a torna genérica
    • Usa o trait Add para realizar a soma. É preciso importá-lo da biblioteca padrão
    • A assinatura da função é fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
    • Em Rust, não é possível misturar tipos numéricos diferentes, então é necessária conversão explícita
  • Ele fornece um exemplo simples de função para somar dois números em Rust

    • É uma função que soma dois inteiros do tipo i32
    • Também é possível lidar com outros tipos numéricos usando genéricos e trait bounds
  • Fico me perguntando quais opções de API paga existem para fazer inferência com o maior modelo DeepSeek R1

    • Também queria saber como ajustar finamente ou fazer aprendizado por reforço no maior modelo DeepSeek R1
  • Fico me perguntando qual tamanho de modelo do DeepSeek R1 eu conseguiria rodar localmente com uma RTX 4090 e 192GB de RAM

  • Fico me perguntando qual tamanho de modelo é adequado para uma Nvidia 4070

  • O Ollama é quase perfeito. Mas a falta de suporte a Vulkan é um grande problema