DeepSeek v4: modelo de linguagem de grande porte altamente eficiente com suporte a contexto de 1 milhão de tokens
(huggingface.co)- Modelo de linguagem de grande porte baseado em Mixture-of-Experts (MoE) com suporte a contexto de 1M de tokens, lançado em duas versões: Pro (1.6T de parâmetros) e Flash (284B de parâmetros)
- Arquitetura híbrida de atenção que combina Compressed Sparse Attention (CSA) e Heavily Compressed Attention (HCA), usando apenas 27% dos FLOPs de inferência e 10% do cache KV do DeepSeek-V3.2 na referência de 1 milhão de tokens
- Após pré-treinamento com mais de 32T de tokens, aplica um pipeline de pós-treinamento em 2 etapas que treina especialistas por domínio de forma independente e depois os integra em um único modelo com on-policy distillation
- O DeepSeek-V4-Pro-Max alcança o melhor desempenho open source em benchmarks de coding como LiveCodeBench 93.5, SWE Verified 80.6 e Codeforces 3206
- Suporta três modos de inferência — Non-Think, Think High e Think Max — permitindo escolher entre tarefas cotidianas e raciocínio de dificuldade máxima conforme o uso
Visão geral do modelo e arquitetura
- A série DeepSeek-V4 é composta por dois modelos: DeepSeek-V4-Pro (1.6T de parâmetros no total, 49B ativos) e DeepSeek-V4-Flash (284B de parâmetros no total, 13B ativos)
- Ambos os modelos suportam comprimento de contexto de 1 milhão de tokens
- Três principais upgrades de arquitetura e otimização:
- Hybrid Attention Architecture: combina CSA e HCA para melhorar drasticamente a eficiência em contexto longo; na referência de 1 milhão de tokens, reduz os FLOPs de inferência por token para 27% e o cache KV para 10% em relação ao DeepSeek-V3.2
- Manifold-Constrained Hyper-Connections (mHC): reforça as conexões residuais existentes para garantir ao mesmo tempo estabilidade na propagação de sinal entre camadas e maior capacidade de representação do modelo
- Muon Optimizer: oferece convergência mais rápida e maior estabilidade no treinamento
Treinamento e pipeline de pós-treinamento
- Pré-treinamento realizado com mais de 32T de tokens diversos e de alta qualidade
- O pós-treinamento adota um paradigma de 2 etapas:
- Etapa 1: treinamento independente de especialistas por domínio por meio de SFT e RL (com uso de GRPO)
- Etapa 2: integração da especialização de vários domínios em um único modelo com on-policy distillation
Modos de inferência
- Tanto o DeepSeek-V4-Pro quanto o DeepSeek-V4-Flash suportam três modos de inferência:
- Non-Think: respostas rápidas e intuitivas, adequadas para trabalho cotidiano ou decisões de baixo risco
- Think High: análise lógica deliberada, adequada para resolução de problemas complexos ou planejamento
- Think Max: expande a capacidade de raciocínio até o limite, voltado à exploração das fronteiras de inferência do modelo
Desempenho em benchmarks — modelos Base
- O DeepSeek-V4-Pro-Base supera o V3.2-Base e o V4-Flash-Base na maioria dos benchmarks:
- MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro: 73.5 (V3.2-Base 65.5)
- Simple-QA Verified: 55.2 (V3.2-Base 28.3)
- FACTS Parametric: 62.6 (V3.2-Base 27.1)
- HumanEval: 76.8 (V3.2-Base 62.8)
- LongBench-V2: 51.5 (V3.2-Base 40.2)
- O V4-Flash-Base prova sua eficiência ao igualar ou superar em alguns benchmarks o V3.2-Base (37B ativos) usando apenas 13B de parâmetros ativos
Desempenho em benchmarks — modelos Instruct (V4-Pro-Max vs modelos de fronteira)
- Destaque em benchmarks de coding:
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
- Em conhecimento e raciocínio:
- SimpleQA-Verified 57.9 e Chinese-SimpleQA 84.4, superando a maioria dos modelos, mas abaixo do Gemini-3.1-Pro High (75.6, 85.9)
- GPQA Diamond 90.1, MMLU-Pro 87.5
- Tarefas de agente:
- SWE Verified 80.6, MCPAtlas Public 73.6, entre os melhores resultados
- Em Terminal Bench 2.0 (67.9) e HLE w/ tools (48.2), fica abaixo de alguns modelos closed source
- O V4-Flash-Max alcança desempenho de raciocínio próximo ao da versão Pro quando recebe um thinking budget maior, embora fique um pouco atrás em tarefas puras de conhecimento e em workflows complexos de agente devido à diferença na escala de parâmetros
Comparação de desempenho por modo
- Em todos os benchmarks, o V4-Pro Max registra o melhor desempenho
- Há um padrão consistente de aumento de desempenho de Non-Think → Think High → Think Max:
- Ex.: em GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Ex.: em LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
- O V4-Flash Max apresenta desempenho semelhante ou superior ao V4-Pro High em vários benchmarks
Download do modelo e precisão
- Quatro modelos disponíveis: V4-Flash-Base, V4-Flash, V4-Pro-Base e V4-Pro
- Os modelos Base usam precisão FP8 Mixed, e os modelos Instruct usam precisão FP4 + FP8 Mixed
- Os parâmetros especialistas do MoE usam FP4, e a maior parte do restante usa FP8
- Disponível para download no HuggingFace e no ModelScope
Template de chat e execução local
- Não inclui template de chat no formato Jinja; em vez disso, a pasta
encodingfornece scripts Python e casos de teste para codificação e parsing de mensagens em formato compatível com OpenAI - Parâmetros de sampling recomendados para implantação local: temperature 1.0, top_p 1.0
- No modo Think Max, recomenda-se uma janela de contexto de pelo menos 384K tokens
Licença
- Tanto os pesos do modelo quanto o repositório usam a MIT License
1 comentários
Opiniões no Hacker News
Para um modelo enorme como o v4 pro, o custo fica em torno de US$ 4 por 1 milhão de tokens de saída, então não sei se é mesmo verdade essa história de que “os laboratórios de ponta estão subsidiando a inferência em nível insano”
Parece que o modelo por assinatura já daria lucro, e nem precisa falar do preço da API
A entrada é US$ 1,74/M, e a saída US$ 3,48/M segundo o OpenRouter
Dizem que, quando as placas de computação Ascend 950 saírem no segundo semestre deste ano, o preço do Pro deve cair bastante, segundo o comunicado à imprensa
Ainda assim, até essas estimativas de custo vêm subindo mais do que se esperava ultimamente
O serviço por assinatura já dá lucro, e esse papo de subsídio no fim parece mais uma lógica para extrair margens maiores da API de clientes corporativos
Na China, a eletricidade também é mais barata
É estranhamente reconfortante que a documentação para desenvolvedores tenha saído antes do comunicado cheio de firulas
Pelo visto, depois editaram e tiraram a expressão "open source" do comentário principal
Já apareceu no OpenRouter
O Pro custa US$ 1,74/m de entrada e US$ 3,48/m de saída, e o Flash custa US$ 0,14/m de entrada e US$ 0,28/m de saída
Aqui dá Api Error
Todos os outros modelos funcionam normalmente
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
É bom ver open source de verdade saindo da China
Sei que pode haver segundas intenções, mas ainda assim isso me agrada
As segundas intenções da China são uma suposição; do lado americano, isso já está escancarado
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
Eles colocaram o modelo base Pro de 1.6T no Hugging Face
É a primeira vez que vejo essa notação de modelo na casa dos T aqui
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
O modelo foi lançado e é bem impressionante
Tem desempenho de fronteira, mas com custo muito menor, e me parece melhor que o Opus 4.6
Quem usa Opus vai continuar acreditando que ele é o melhor de qualquer jeito, e quem não usa não quer esse custo, esse lock-in e essas restrições
Eu, por exemplo, continuo usando o modelo mais barato e rápido que resolve o trabalho, e no momento esse papel é do MiniMax M2.5
Às vezes até testo modelos novos mais caros e o resultado é parecido, então fico pensando se não existe um certo exagero da indústria de IA inteira que faz tudo parecer avanço só em benchmark
Passei a semana toda participando do hackathon do Anthropic Opus 4.7 e usei bastante o 4.7; ele gasta muito mais tokens que o 4.6, mas foi bem impressionante
Queria saber se alguém já testou codificação real com um harness de agente
Se a capacidade de programação for melhor que Claude Code + Opus 4.6, eu troco na hora
Todo dia aparece post de lançamento dizendo que algo é melhor que o Opus 4.6, mas nem a própria DeepSeek afirma que supera o Opus incluindo thinking
O Dsv3 não era um modelo inflado para benchmark e se saía de forma consistente até em tarefas fora de benchmark; não era SoTA, mas era bom
Este modelo parece semelhante
Está logo abaixo do topo em desempenho, mas a diferença não é grande e o preço é muito menor
O modelo grande está sendo servido pela própria ds por US$ 1,74 in / US$ 3,48 out / US$ 0,14 cache, então o valor entregue é excelente para o preço
O modelo pequeno custa US$ 0,14 in / US$ 0,28 out / US$ 0,028 cache, então é praticamente barato demais para se preocupar, e pode virar um candidato realista para rodar em casa
Se o desempenho vier junto, parece bem capaz de competir com as linhas haiku e gemini-flash
A melhora média dá algo como 2%, e sinceramente não sei se isso é enorme ou irrelevante
O Claude 4.6 foi quase 10 pp melhor em perguntas e respostas com contexto longo, especialmente nos corpuses do CorpusQA e nos diálogos multirrodada do MRCR
Já o DSv4 ficou 14 pp acima no IMOAnswerBench e 12 pp acima no SimpleQA-Verified
Os pesos podem ser baixados aqui
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
É muito bom ver que lançaram até novos modelos base
Tenho muito interesse nessa área e também estou bastante envolvido nela, mas sinceramente já estou entrando em burnout tentando acompanhar tudo
Parece que já passamos faz tempo do ponto em que, para acompanhar os avanços de IA, a própria IA precisa resumir os avanços de IA
É como notícias: quando realmente surgir algo que você precise saber, alguém vai te avisar antes
Dá para acompanhar como se acompanha esporte, e se você aceitar que a liderança vai mudando, não fica tão pesado
Sai modelo novo e a conversa é sempre que melhorou em alguns benchmarks, mas a experiência subjetiva de uso quase não muda
Depois disso, quase nada realmente surpreendeu, e agora parece até uma fase estagnada que só o grupo mais entusiasta ainda acompanha
Mais do que o fato de a High Flyer ter copiado descaradamente a Anthropic para fazer isso, o que mais me incomoda é que o GAB aparentemente comprou tempo suficiente para eles colocarem dezenas de easter eggs no nível do xz ali dentro
Acabei de testar no Pi Coding agent via OpenRouter, e ele frequentemente não consegue usar direito as ferramentas de read e write
Foi bem decepcionante, e queria saber se existe uma solução melhor do que prompts do tipo “não use chamadas diretas, use sempre as ferramentas fornecidas”
Provavelmente eles ainda não tiveram tempo suficiente para fazer testes prévios com o Pi