DeepSeek V4 — quase no nível frontier e com preço em outra faixa
(simonwillison.net)- A DeepSeek revelou dois modelos preview como os primeiros da série V4: DeepSeek-V4-Pro e DeepSeek-V4-Flash. Ambos são modelos Mixture of Experts com suporte a contexto de 1 milhão de tokens e são distribuídos sob licença MIT
- O DeepSeek-V4-Pro tem 1,6T de parâmetros no total e 49B de parâmetros ativos, e parece ser o novo maior modelo de pesos abertos, maior que Kimi K2.6, GLM-5.1 e DeepSeek V3.2
- O principal diferencial do DeepSeek V4 é o preço: o Flash custa $0.14 por 1 milhão de tokens de entrada e $0.28 de saída, enquanto o Pro custa $1.74 de entrada e $3.48 de saída, abaixo dos modelos pequenos e grandes comparáveis
- O preço baixo está ligado à eficiência em contexto longo: com contexto de 1 milhão de tokens, o Pro cai para 27% dos FLOPs por token e 10% do cache KV em relação ao DeepSeek-V3.2, enquanto o Flash cai para 10% dos FLOPs e 7% do cache KV
- Em benchmarks próprios, o DeepSeek-V4-Pro consegue competir com modelos frontier, mas fica um pouco abaixo de GPT-5.4 e Gemini-3.1-Pro, mostrando uma trajetória de desenvolvimento cerca de 3 a 6 meses atrás dos modelos frontier mais avançados
Lançamento dos modelos e especificações básicas
- A DeepSeek revelou, em dezembro de 2025, após V3.2 e V3.2 Speciale, dois modelos preview como os primeiros da série V4: DeepSeek-V4-Pro e DeepSeek-V4-Flash
- Ambos são modelos Mixture of Experts com suporte a contexto de 1 milhão de tokens e usam a licença MIT padrão
- O DeepSeek-V4-Pro é um modelo com 1,6T de parâmetros no total e 49B de parâmetros ativos, enquanto o DeepSeek-V4-Flash tem 284B de parâmetros no total e 13B de parâmetros ativos
- O DeepSeek-V4-Pro é maior que os 1,1T do Kimi K2.6, os 754B do GLM-5.1 e os 685B do DeepSeek V3.2, parecendo ser o novo maior modelo de pesos abertos
- No Hugging Face, o tamanho do modelo é de 865GB para o Pro e 160GB para o Flash; espera-se que uma versão levemente quantizada do Flash possa rodar em um MacBook Pro M5 com 128GB
- O modelo Pro também pode conseguir rodar na mesma máquina se for possível fazer streaming a partir do disco apenas dos especialistas (experts) ativos necessários
-
Teste rápido via OpenRouter
- Usando OpenRouter e llm-openrouter, o modelo foi chamado com o seguinte comando
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Como resultado da geração, foram publicados o SVG do pelicano do DeepSeek-V4-Flash e o SVG do pelicano do DeepSeek-V4-Pro
- Como comparação, também foram mostrados os resultados com o mesmo prompt para DeepSeek V3.2 de dezembro de 2025, V3.1 de agosto de 2025 e V3-0324 de março de 2025
Preço, eficiência e posicionamento de desempenho
- O elemento mais chamativo do DeepSeek V4 é o preço e, segundo a página de preços da DeepSeek, o Flash custa $0.14 por 1 milhão de tokens de entrada e $0.28 por 1 milhão de tokens de saída
- O Pro foi precificado em $1.74 por 1 milhão de tokens de entrada e $3.48 por 1 milhão de tokens de saída
- Na tabela comparativa, o DeepSeek V4 Flash fica abaixo do GPT-5.4 Nano, com $0.20 de entrada e $1.25 de saída, e do Gemini 3.1 Flash-Lite, com $0.25 de entrada e $1.50 de saída, tornando-se o mais barato entre os modelos pequenos
- O DeepSeek V4 Pro fica abaixo do Gemini 3.1 Pro, com $2 de entrada e $12 de saída, do GPT-5.4, com $2.50 de entrada e $15 de saída, do Claude Sonnet 4.6, com $3 de entrada e $15 de saída, do Claude Opus 4.7, com $5 de entrada e $25 de saída, e do GPT-5.5, com $5 de entrada e $30 de saída, tornando-se o mais barato entre os grandes modelos frontier
-
A eficiência sustenta o preço baixo
- O artigo da DeepSeek afirma que este lançamento teve forte foco na eficiência de prompts de contexto longo
- Com contexto de 1 milhão de tokens, o DeepSeek-V4-Pro fica em 27% dos FLOPs por token e 10% do tamanho do cache KV em relação ao DeepSeek-V3.2
- Nas mesmas condições, o DeepSeek-V4-Flash cai para 10% dos FLOPs por token e 7% do tamanho do cache KV em relação ao DeepSeek-V3.2
-
Em benchmarks, chega perto do frontier, mas ainda atrás do topo
- Os benchmarks autorreportados da DeepSeek indicam que o modelo Pro pode competir com outros modelos frontier
- Segundo o artigo, o DeepSeek-V4-Pro-Max com escalonamento de tokens de raciocínio supera GPT-5.2 e Gemini-3.0-Pro em benchmarks padrão de raciocínio
- Ainda assim, fica um pouco abaixo de GPT-5.4 e Gemini-3.1-Pro, mostrando uma trajetória de desenvolvimento cerca de 3 a 6 meses atrás dos modelos frontier mais avançados
- Há expectativa pela publicação de versões quantizadas da Unsloth em huggingface.co/unsloth/models, e segue a curiosidade sobre quão bem o modelo Flash vai rodar em máquinas locais
Ainda não há comentários.