- O Deepseek R1-0528 foi lançado como um LLM de última geração
- Este modelo é disponibilizado como código aberto, ampliando sua acessibilidade e utilidade
- Apresenta forte desempenho em diversas tarefas de processamento e geração de linguagem natural
- Oferece vantagens para pesquisa e uso prático por meio de uma arquitetura mais rápida e eficiente
- Surge como uma opção adicional competitiva no setor de IA
Introdução ao modelo Deepseek R1-0528
- O Deepseek R1-0528 é um modelo de linguagem de grande porte (LLM) de última geração, utilizável em tarefas de compreensão e geração de linguagem natural
- O modelo foi publicado como código aberto no Hugging Face, permitindo que pesquisadores e desenvolvedores o utilizem livremente
- Desenvolvido pela DeepSeek-AI, o modelo R1-0528 foi treinado com grandes conjuntos de dados e pode ser aplicado a diversas tarefas de processamento e geração de linguagem natural, como resumo de texto, tradução, perguntas e respostas e geração de código
- Em comparação com outros modelos abertos já publicados, destaca-se por uma velocidade de raciocínio superior e uma estrutura de rede otimizada
- Graças a esses pontos fortes, vem ganhando destaque como uma opção preferida para desenvolvedores que buscam resultados rápidos e precisos em pesquisa e em ambientes industriais reais
Características e vantagens do modelo
- O Deepseek R1-0528 se diferencia de LLMs existentes em termos de escalabilidade, eficiência e rapidez
- Adota uma estrutura modular que permite aos desenvolvedores personalizar facilmente o modelo e aplicá-lo de forma especializada a diferentes idiomas ou domínios
- Graças a algoritmos aprimorados, a velocidade de processamento nas etapas de treinamento e inferência foi melhorada
- Qualquer usuário pode carregar e utilizar o modelo com facilidade por meio da biblioteca Hugging Face
Uso e efeitos esperados
- Pode ser utilizado em diversos cenários práticos, como pesquisa em IA, chatbots, geração automática de documentos e assistentes de código
- Por ser open source, a aplicação em conjuntos de dados reais e a validação de desempenho do modelo podem se tornar mais livres
- O lançamento do DeepSeek R1-0528 impulsiona um ambiente de competição saudável e avanço técnico na comunidade global de IA
1 comentários
Comentários do Hacker News
Primeiro descobri que o DeepSeek R1 passou a estar disponível por meio do OpenRouter em 7 provedores
Link
É a atualização original do DeepSeek R1 de 28 de maio, com desempenho em nível semelhante ao do OpenAI o1
Como é open source, os reasoning tokens também estão disponíveis publicamente
O total de parâmetros é 671B, e apenas 37B ficam ativos durante a inferência
É um modelo totalmente open source
Gostaria de saber se existe algum modelo disponível para download
Não estou familiarizado com o OpenRouter e não consegui encontrar o modelo no Ollama, então queria investigar mais
Não foi divulgado absolutamente nada sobre quais dados foram usados para treinar o modelo
Os pesos para download foram publicados, mas isso não faz dele, no sentido mais fundamental, um open source reproduzível
Havia um projeto chamado "Open R1" que pretendia divulgar até os dados de treinamento,
e fiquei curioso sobre como está o andamento atual
Link
Não concordo com a afirmação de que o DeepSeek R1 é open source
Vale reforçar que ser baixável não significa ser open source
Link
É uma pena não haver praticamente nenhuma informação sobre o DeepSeek R1
Não há nem dados de benchmark, e isso me lembra da época em que a Mistral soltou um link magnet de torrent num tweet
Hoje em dia, benchmark parece não significar muita coisa
O foco acaba sendo só ajustar o modelo para testes já públicos,
enquanto se deixa de lado o avanço mais essencial de ampliar a generalização
Se você olhar o leaderboard da Hugging Face, vários fine-tunings de modelos open source aparecem no topo, mas na prática não são amplamente usados
Link
Na tabela de benchmark aparecem as pontuações de "Overall" e "Median",
mas não há informação sobre o que exatamente foi testado
No geral, ele parece semelhante aos modelos mais recentes, mas tem uma pequena vantagem em custo
A desvantagem é a velocidade de inferência lenta, parecida com a do R1 anterior (consome muitos tokens)
Link da tabela
O jeito como a DeepSeek faz essas divulgações lembra a Mistral antiga, e fico me perguntando se não é uma homenagem intencional
A DeepSeek costuma publicar o paper no dia seguinte ao lançamento do modelo
Se coordenassem um pouco melhor esse cronograma, tudo pareceria mais organizado, porque agora as notícias acabam chegando meio bagunçadas no Newssa
É curioso que o DeepSeek seja um dos poucos LLMs que roda num iPod Touch com uma versão antiga do iOS instalada
Gosto de como a DeepSeek simplesmente vai soltando novas atualizações sem alarde
Mesmo quando há grandes melhorias, prefiro esse clima de lançamento discreto, sem muita divulgação
Fico curioso se a melhora é realmente tão grande assim
Queria saber se existe algum material oficial de comparação, como benchmarks
Enquanto a OpenAI, e mais recentemente também a Anthropic, vêm exagerando na apresentação de modelos novos,
com narrativas sobre "o quão perigoso esse modelo é, como ele tenta escapar, enganar pessoas e hackear servidores centrais",
quase numa vibe de pesadelo, a DeepSeek faz lançamentos de forma mais sóbria, sem exageros
Na prática, parece que houve um anúncio oficial no WeChat
Esse estilo de lançamento discreto também é legal, mas ainda assim seria melhor se também trouxessem dados numéricos, como benchmarks
Também achei uma coincidência curiosa o timing de divulgação no mesmo dia do anúncio de resultados da Nvidia
Queria saber que tipo de hardware seria necessário, na prática, para uma pessoa comum usar um LLM desse porte, mesmo que lentamente
Também queria entender se existe alguma forma simples para usuários comuns reduzirem a configuração ou o tamanho do modelo para conseguir usar
Conseguiram rodar o DeepSeek R1 localmente com offloading e quantização de 1.58bit
Mais informações: Link
Uma nova versão também está em desenvolvimento
A versão quantizada em 4bit pode rodar em um M3 Ultra com 512GB
O preço é bem alto
Outra opção seria um sistema com CPU de alto desempenho e 500GB de RAM DDR5
Isso também não sai barato e é mais lento que o M3 Ultra
Outra alternativa é usar várias GPUs Nvidia para somar 500GB de VRAM
Essa é a opção mais cara, mas a velocidade é maior
É preciso uma placa-mãe de servidor dual socket com 768GB de RAM DDR5 e uma GPU de pelo menos 16GB para processar os prompts
Para rodar a 8~10 tokens/segundo, seriam necessários vários milhões de won
Um Xeon dual socket usado de US$ 2 mil com 768GB de DDR4 roda a versão quantizada em 4bit a cerca de 1,5 token por segundo
Na Amazon, dá para usar por algo em torno de 1 centavo por 10 mil tokens
Também existe um guia para configuração manual de instância EC2
Como exemplo, há a instância
g6e.48xlarge(192 vCPU, 1536GB de RAM, 8 GPUs L40S Tensor Core com 48GB de VRAM cada)O custo mensal de uso fica em torno de US$ 22 mil
Guia do DeepSeek no Bedrock
Guia de deploy manual
Há bastante expectativa em relação ao lançamento mais recente do R1
São 685B parâmetros, mas não há model card, release notes, descrição das mudanças nem informação sobre a janela de contexto
A qualidade de saída do R1 original é impressionante, mas havia a frustração de ele consumir muitos tokens
Estou esperando que divulguem mais informações
Também é interessante que ele custe cerca de metade do preço do o4 mini high sem grande diferença de desempenho
Também vi que a maioria dos provedores está oferecendo versões quantizadas
Para alcançar desempenho parecido com o da DeepSeek, seriam necessárias pelo menos 8 GPUs H100 de 80GB
Se você usar muitos tokens, pode acabar saindo muito mais barato que a OpenAI
Quero muito experimentar o DeepSeek na Groq logo
No momento, ela só suporta o DeepSeek-r1-distill-llama-70b, que é um modelo destilado sobre o llama 70b
Guia de modelos da Groq