Lançamento do Deepseek R1-0528

(huggingface.co)

1 pontos por GN⁺ 2025-05-29 | 1 comentários | Compartilhar no WhatsApp

O Deepseek R1-0528 foi lançado como um LLM de última geração
Este modelo é disponibilizado como código aberto, ampliando sua acessibilidade e utilidade
Apresenta forte desempenho em diversas tarefas de processamento e geração de linguagem natural
Oferece vantagens para pesquisa e uso prático por meio de uma arquitetura mais rápida e eficiente
Surge como uma opção adicional competitiva no setor de IA

Introdução ao modelo Deepseek R1-0528

O Deepseek R1-0528 é um modelo de linguagem de grande porte (LLM) de última geração, utilizável em tarefas de compreensão e geração de linguagem natural
O modelo foi publicado como código aberto no Hugging Face, permitindo que pesquisadores e desenvolvedores o utilizem livremente
Desenvolvido pela DeepSeek-AI, o modelo R1-0528 foi treinado com grandes conjuntos de dados e pode ser aplicado a diversas tarefas de processamento e geração de linguagem natural, como resumo de texto, tradução, perguntas e respostas e geração de código
Em comparação com outros modelos abertos já publicados, destaca-se por uma velocidade de raciocínio superior e uma estrutura de rede otimizada
Graças a esses pontos fortes, vem ganhando destaque como uma opção preferida para desenvolvedores que buscam resultados rápidos e precisos em pesquisa e em ambientes industriais reais

Características e vantagens do modelo

O Deepseek R1-0528 se diferencia de LLMs existentes em termos de escalabilidade, eficiência e rapidez
Adota uma estrutura modular que permite aos desenvolvedores personalizar facilmente o modelo e aplicá-lo de forma especializada a diferentes idiomas ou domínios
Graças a algoritmos aprimorados, a velocidade de processamento nas etapas de treinamento e inferência foi melhorada
Qualquer usuário pode carregar e utilizar o modelo com facilidade por meio da biblioteca Hugging Face

Uso e efeitos esperados

Pode ser utilizado em diversos cenários práticos, como pesquisa em IA, chatbots, geração automática de documentos e assistentes de código
Por ser open source, a aplicação em conjuntos de dados reais e a validação de desempenho do modelo podem se tornar mais livres
O lançamento do DeepSeek R1-0528 impulsiona um ambiente de competição saudável e avanço técnico na comunidade global de IA

1 comentários

GN⁺ 2025-05-29

Comentários do Hacker News

Primeiro descobri que o DeepSeek R1 passou a estar disponível por meio do OpenRouter em 7 provedores
Link
É a atualização original do DeepSeek R1 de 28 de maio, com desempenho em nível semelhante ao do OpenAI o1
Como é open source, os reasoning tokens também estão disponíveis publicamente
O total de parâmetros é 671B, e apenas 37B ficam ativos durante a inferência
É um modelo totalmente open source
- Gostaria de saber se existe algum modelo disponível para download
  Não estou familiarizado com o OpenRouter e não consegui encontrar o modelo no Ollama, então queria investigar mais
- Não foi divulgado absolutamente nada sobre quais dados foram usados para treinar o modelo
  Os pesos para download foram publicados, mas isso não faz dele, no sentido mais fundamental, um open source reproduzível
  Havia um projeto chamado "Open R1" que pretendia divulgar até os dados de treinamento,
  e fiquei curioso sobre como está o andamento atual
  Link
- Não concordo com a afirmação de que o DeepSeek R1 é open source
  Vale reforçar que ser baixável não significa ser open source
  Link
É uma pena não haver praticamente nenhuma informação sobre o DeepSeek R1
Não há nem dados de benchmark, e isso me lembra da época em que a Mistral soltou um link magnet de torrent num tweet
- Hoje em dia, benchmark parece não significar muita coisa
  O foco acaba sendo só ajustar o modelo para testes já públicos,
  enquanto se deixa de lado o avanço mais essencial de ampliar a generalização
  Se você olhar o leaderboard da Hugging Face, vários fine-tunings de modelos open source aparecem no topo, mas na prática não são amplamente usados
  Link
- Na tabela de benchmark aparecem as pontuações de "Overall" e "Median",
  mas não há informação sobre o que exatamente foi testado
  No geral, ele parece semelhante aos modelos mais recentes, mas tem uma pequena vantagem em custo
  A desvantagem é a velocidade de inferência lenta, parecida com a do R1 anterior (consome muitos tokens)
  Link da tabela
- O jeito como a DeepSeek faz essas divulgações lembra a Mistral antiga, e fico me perguntando se não é uma homenagem intencional
- A DeepSeek costuma publicar o paper no dia seguinte ao lançamento do modelo
  Se coordenassem um pouco melhor esse cronograma, tudo pareceria mais organizado, porque agora as notícias acabam chegando meio bagunçadas no Newssa
É curioso que o DeepSeek seja um dos poucos LLMs que roda num iPod Touch com uma versão antiga do iOS instalada
Gosto de como a DeepSeek simplesmente vai soltando novas atualizações sem alarde
Mesmo quando há grandes melhorias, prefiro esse clima de lançamento discreto, sem muita divulgação
- Fico curioso se a melhora é realmente tão grande assim
  Queria saber se existe algum material oficial de comparação, como benchmarks
- Enquanto a OpenAI, e mais recentemente também a Anthropic, vêm exagerando na apresentação de modelos novos,
  com narrativas sobre "o quão perigoso esse modelo é, como ele tenta escapar, enganar pessoas e hackear servidores centrais",
  quase numa vibe de pesadelo, a DeepSeek faz lançamentos de forma mais sóbria, sem exageros
- Na prática, parece que houve um anúncio oficial no WeChat
- Esse estilo de lançamento discreto também é legal, mas ainda assim seria melhor se também trouxessem dados numéricos, como benchmarks
- Também achei uma coincidência curiosa o timing de divulgação no mesmo dia do anúncio de resultados da Nvidia
Queria saber que tipo de hardware seria necessário, na prática, para uma pessoa comum usar um LLM desse porte, mesmo que lentamente
Também queria entender se existe alguma forma simples para usuários comuns reduzirem a configuração ou o tamanho do modelo para conseguir usar
- Conseguiram rodar o DeepSeek R1 localmente com offloading e quantização de 1.58bit
  Mais informações: Link
  Uma nova versão também está em desenvolvimento
- A versão quantizada em 4bit pode rodar em um M3 Ultra com 512GB
  O preço é bem alto
  Outra opção seria um sistema com CPU de alto desempenho e 500GB de RAM DDR5
  Isso também não sai barato e é mais lento que o M3 Ultra
  Outra alternativa é usar várias GPUs Nvidia para somar 500GB de VRAM
  Essa é a opção mais cara, mas a velocidade é maior
- É preciso uma placa-mãe de servidor dual socket com 768GB de RAM DDR5 e uma GPU de pelo menos 16GB para processar os prompts
  Para rodar a 8~10 tokens/segundo, seriam necessários vários milhões de won
- Um Xeon dual socket usado de US$ 2 mil com 768GB de DDR4 roda a versão quantizada em 4bit a cerca de 1,5 token por segundo
- Na Amazon, dá para usar por algo em torno de 1 centavo por 10 mil tokens
  Também existe um guia para configuração manual de instância EC2
  Como exemplo, há a instância g6e.48xlarge (192 vCPU, 1536GB de RAM, 8 GPUs L40S Tensor Core com 48GB de VRAM cada)
  O custo mensal de uso fica em torno de US$ 22 mil
  Guia do DeepSeek no Bedrock
  Guia de deploy manual
Há bastante expectativa em relação ao lançamento mais recente do R1
São 685B parâmetros, mas não há model card, release notes, descrição das mudanças nem informação sobre a janela de contexto
A qualidade de saída do R1 original é impressionante, mas havia a frustração de ele consumir muitos tokens
Estou esperando que divulguem mais informações
Também é interessante que ele custe cerca de metade do preço do o4 mini high sem grande diferença de desempenho
Também vi que a maioria dos provedores está oferecendo versões quantizadas
Para alcançar desempenho parecido com o da DeepSeek, seriam necessárias pelo menos 8 GPUs H100 de 80GB
- O custo estimado seria de cerca de US$ 16~24 por hora
  Se você usar muitos tokens, pode acabar saindo muito mais barato que a OpenAI
Quero muito experimentar o DeepSeek na Groq logo
- A Groq não oferece suporte ao modelo DeepSeek de verdade
  No momento, ela só suporta o DeepSeek-r1-distill-llama-70b, que é um modelo destilado sobre o llama 70b
  Guia de modelos da Groq

Lançamento do Deepseek R1-0528

Introdução ao modelo Deepseek R1-0528

Características e vantagens do modelo

Uso e efeitos esperados

Leituras relacionadas

1 comentários

Comentários do Hacker News