1 pontos por GN⁺ 2025-05-29 | 1 comentários | Compartilhar no WhatsApp
  • O Deepseek R1-0528 foi lançado como um LLM de última geração
  • Este modelo é disponibilizado como código aberto, ampliando sua acessibilidade e utilidade
  • Apresenta forte desempenho em diversas tarefas de processamento e geração de linguagem natural
  • Oferece vantagens para pesquisa e uso prático por meio de uma arquitetura mais rápida e eficiente
  • Surge como uma opção adicional competitiva no setor de IA

Introdução ao modelo Deepseek R1-0528

  • O Deepseek R1-0528 é um modelo de linguagem de grande porte (LLM) de última geração, utilizável em tarefas de compreensão e geração de linguagem natural
  • O modelo foi publicado como código aberto no Hugging Face, permitindo que pesquisadores e desenvolvedores o utilizem livremente
  • Desenvolvido pela DeepSeek-AI, o modelo R1-0528 foi treinado com grandes conjuntos de dados e pode ser aplicado a diversas tarefas de processamento e geração de linguagem natural, como resumo de texto, tradução, perguntas e respostas e geração de código
  • Em comparação com outros modelos abertos já publicados, destaca-se por uma velocidade de raciocínio superior e uma estrutura de rede otimizada
  • Graças a esses pontos fortes, vem ganhando destaque como uma opção preferida para desenvolvedores que buscam resultados rápidos e precisos em pesquisa e em ambientes industriais reais

Características e vantagens do modelo

  • O Deepseek R1-0528 se diferencia de LLMs existentes em termos de escalabilidade, eficiência e rapidez
  • Adota uma estrutura modular que permite aos desenvolvedores personalizar facilmente o modelo e aplicá-lo de forma especializada a diferentes idiomas ou domínios
  • Graças a algoritmos aprimorados, a velocidade de processamento nas etapas de treinamento e inferência foi melhorada
  • Qualquer usuário pode carregar e utilizar o modelo com facilidade por meio da biblioteca Hugging Face

Uso e efeitos esperados

  • Pode ser utilizado em diversos cenários práticos, como pesquisa em IA, chatbots, geração automática de documentos e assistentes de código
  • Por ser open source, a aplicação em conjuntos de dados reais e a validação de desempenho do modelo podem se tornar mais livres
  • O lançamento do DeepSeek R1-0528 impulsiona um ambiente de competição saudável e avanço técnico na comunidade global de IA

1 comentários

 
GN⁺ 2025-05-29
Comentários do Hacker News
  • Primeiro descobri que o DeepSeek R1 passou a estar disponível por meio do OpenRouter em 7 provedores
    Link
    É a atualização original do DeepSeek R1 de 28 de maio, com desempenho em nível semelhante ao do OpenAI o1
    Como é open source, os reasoning tokens também estão disponíveis publicamente
    O total de parâmetros é 671B, e apenas 37B ficam ativos durante a inferência
    É um modelo totalmente open source

    • Gostaria de saber se existe algum modelo disponível para download
      Não estou familiarizado com o OpenRouter e não consegui encontrar o modelo no Ollama, então queria investigar mais

    • Não foi divulgado absolutamente nada sobre quais dados foram usados para treinar o modelo
      Os pesos para download foram publicados, mas isso não faz dele, no sentido mais fundamental, um open source reproduzível
      Havia um projeto chamado "Open R1" que pretendia divulgar até os dados de treinamento,
      e fiquei curioso sobre como está o andamento atual
      Link

    • Não concordo com a afirmação de que o DeepSeek R1 é open source
      Vale reforçar que ser baixável não significa ser open source
      Link

  • É uma pena não haver praticamente nenhuma informação sobre o DeepSeek R1
    Não há nem dados de benchmark, e isso me lembra da época em que a Mistral soltou um link magnet de torrent num tweet

    • Hoje em dia, benchmark parece não significar muita coisa
      O foco acaba sendo só ajustar o modelo para testes já públicos,
      enquanto se deixa de lado o avanço mais essencial de ampliar a generalização
      Se você olhar o leaderboard da Hugging Face, vários fine-tunings de modelos open source aparecem no topo, mas na prática não são amplamente usados
      Link

    • Na tabela de benchmark aparecem as pontuações de "Overall" e "Median",
      mas não há informação sobre o que exatamente foi testado
      No geral, ele parece semelhante aos modelos mais recentes, mas tem uma pequena vantagem em custo
      A desvantagem é a velocidade de inferência lenta, parecida com a do R1 anterior (consome muitos tokens)
      Link da tabela

    • O jeito como a DeepSeek faz essas divulgações lembra a Mistral antiga, e fico me perguntando se não é uma homenagem intencional

    • A DeepSeek costuma publicar o paper no dia seguinte ao lançamento do modelo
      Se coordenassem um pouco melhor esse cronograma, tudo pareceria mais organizado, porque agora as notícias acabam chegando meio bagunçadas no Newssa

  • É curioso que o DeepSeek seja um dos poucos LLMs que roda num iPod Touch com uma versão antiga do iOS instalada

  • Gosto de como a DeepSeek simplesmente vai soltando novas atualizações sem alarde
    Mesmo quando há grandes melhorias, prefiro esse clima de lançamento discreto, sem muita divulgação

    • Fico curioso se a melhora é realmente tão grande assim
      Queria saber se existe algum material oficial de comparação, como benchmarks

    • Enquanto a OpenAI, e mais recentemente também a Anthropic, vêm exagerando na apresentação de modelos novos,
      com narrativas sobre "o quão perigoso esse modelo é, como ele tenta escapar, enganar pessoas e hackear servidores centrais",
      quase numa vibe de pesadelo, a DeepSeek faz lançamentos de forma mais sóbria, sem exageros

    • Na prática, parece que houve um anúncio oficial no WeChat

    • Esse estilo de lançamento discreto também é legal, mas ainda assim seria melhor se também trouxessem dados numéricos, como benchmarks

    • Também achei uma coincidência curiosa o timing de divulgação no mesmo dia do anúncio de resultados da Nvidia

  • Queria saber que tipo de hardware seria necessário, na prática, para uma pessoa comum usar um LLM desse porte, mesmo que lentamente
    Também queria entender se existe alguma forma simples para usuários comuns reduzirem a configuração ou o tamanho do modelo para conseguir usar

    • Conseguiram rodar o DeepSeek R1 localmente com offloading e quantização de 1.58bit
      Mais informações: Link
      Uma nova versão também está em desenvolvimento

    • A versão quantizada em 4bit pode rodar em um M3 Ultra com 512GB
      O preço é bem alto
      Outra opção seria um sistema com CPU de alto desempenho e 500GB de RAM DDR5
      Isso também não sai barato e é mais lento que o M3 Ultra
      Outra alternativa é usar várias GPUs Nvidia para somar 500GB de VRAM
      Essa é a opção mais cara, mas a velocidade é maior

    • É preciso uma placa-mãe de servidor dual socket com 768GB de RAM DDR5 e uma GPU de pelo menos 16GB para processar os prompts
      Para rodar a 8~10 tokens/segundo, seriam necessários vários milhões de won

    • Um Xeon dual socket usado de US$ 2 mil com 768GB de DDR4 roda a versão quantizada em 4bit a cerca de 1,5 token por segundo

    • Na Amazon, dá para usar por algo em torno de 1 centavo por 10 mil tokens
      Também existe um guia para configuração manual de instância EC2
      Como exemplo, há a instância g6e.48xlarge (192 vCPU, 1536GB de RAM, 8 GPUs L40S Tensor Core com 48GB de VRAM cada)
      O custo mensal de uso fica em torno de US$ 22 mil
      Guia do DeepSeek no Bedrock
      Guia de deploy manual

  • Há bastante expectativa em relação ao lançamento mais recente do R1
    São 685B parâmetros, mas não há model card, release notes, descrição das mudanças nem informação sobre a janela de contexto
    A qualidade de saída do R1 original é impressionante, mas havia a frustração de ele consumir muitos tokens
    Estou esperando que divulguem mais informações

  • Também é interessante que ele custe cerca de metade do preço do o4 mini high sem grande diferença de desempenho
    Também vi que a maioria dos provedores está oferecendo versões quantizadas

  • Para alcançar desempenho parecido com o da DeepSeek, seriam necessárias pelo menos 8 GPUs H100 de 80GB

    • O custo estimado seria de cerca de US$ 16~24 por hora
      Se você usar muitos tokens, pode acabar saindo muito mais barato que a OpenAI
  • Quero muito experimentar o DeepSeek na Groq logo

    • A Groq não oferece suporte ao modelo DeepSeek de verdade
      No momento, ela só suporta o DeepSeek-r1-distill-llama-70b, que é um modelo destilado sobre o llama 70b
      Guia de modelos da Groq