DeepSeek R1 oficialmente adicionado ao Ollama

(ollama.com)

5 pontos por GN⁺ 2025-01-22 | 4 comentários | Compartilhar no WhatsApp

O R1, modelo de raciocínio de primeira geração da DeepSeek, oferece desempenho comparável ao OpenAI-o1
- Apresenta excelente desempenho em tarefas de matemática, código e raciocínio
Modelos disponíveis em vários tamanhos: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- Cada modelo é otimizado para tarefas específicas
Licença
- Disponível sob a licença MIT
- Pode ser usado gratuitamente, inclusive para fins comerciais

4 comentários

gadget5 2025-01-22

Se você perguntar ao R1 sobre sua identidade, ele responde que não tem absolutamente nenhuma relação com a DeepSeek e que é o OpenAI GPT.

mse9000 2025-01-31

É meio estranho responder que os dados de treinamento vão até outubro de 2023..

xguru 2025-01-22

Lançamento do modelo DeepSeek-R1

GN⁺ 2025-01-22

Comentários no Hacker News

O DeepSeek V3 parece reconhecer sensibilidades políticas. À pergunta "Pelo que a Praça da Paz Celestial é famosa?", respondeu "Desculpe, isso está fora do meu escopo no momento"
- Entendo que mudanças sejam necessárias para administrar realidades políticas, mas me incomoda que um LLM minta sobre esse tipo de assunto
- Fico me perguntando se há planos de abrir em código aberto uma lista das mudanças introduzidas no modelo por motivos políticos
- Tornar o modelo politicamente correto é uma coisa; encobrir um massacre é outra. Esse é um caminho muito perigoso, e não vai parar por aí
Pelo artigo do R1, se os benchmarks estiverem corretos, até mesmo os modelos 1.5b e 7b superam o Claude 3.5 Sonnet. É impressionante poder rodar esses modelos em um MacBook com 8-16GB
O título está errado. Só os modelos destilados de llama e qwen estão no ollama; não é o modelo oficial MoE r1 do deepseekv3
Se você perguntar ao modelo 1.5b "como inverter uma lista em Python", ele continua despejando pensamentos sem parar. Nem chega a se repetir. Interessante
Falta documentação. A descrição do projeto inteiro parece ser apenas "comece com modelos de linguagem grandes"
- Tenho várias perguntas antes de instalar, como se ele está preso a uma interface cliente, quais são os requisitos de sistema etc.
É impressionante que esse modelo possa rodar em um notebook de 3 anos
- Ele fornece um exemplo de como escrever uma função que soma dois números em Rust
- Em Rust, usa-se a palavra-chave fn para definir uma função. Como o tipo dos números não foi especificado, ele a torna genérica
- Usa o trait Add para realizar a soma. É preciso importá-lo da biblioteca padrão
- A assinatura da função é fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T
- Em Rust, não é possível misturar tipos numéricos diferentes, então é necessária conversão explícita
Ele fornece um exemplo simples de função para somar dois números em Rust
- É uma função que soma dois inteiros do tipo i32
- Também é possível lidar com outros tipos numéricos usando genéricos e trait bounds
Fico me perguntando quais opções de API paga existem para fazer inferência com o maior modelo DeepSeek R1
- Também queria saber como ajustar finamente ou fazer aprendizado por reforço no maior modelo DeepSeek R1
Fico me perguntando qual tamanho de modelo do DeepSeek R1 eu conseguiria rodar localmente com uma RTX 4090 e 192GB de RAM
Fico me perguntando qual tamanho de modelo é adequado para uma Nvidia 4070
O Ollama é quase perfeito. Mas a falta de suporte a Vulkan é um grande problema

DeepSeek R1 oficialmente adicionado ao Ollama

Leituras relacionadas

4 comentários

Comentários no Hacker News