DeepSeek V4 – quase no nível da fronteira e muito mais barato
(simonwillison.net)- A DeepSeek revelou os modelos em prévia DeepSeek-V4-Pro e DeepSeek-V4-Flash, os primeiros da série V4; ambos são modelos Mixture of Experts com suporte a contexto de 1 milhão de tokens e oferecidos sob licença MIT
- O DeepSeek-V4-Pro é um modelo com 1.6T de parâmetros no total e 49B de parâmetros ativos, sendo aparentemente o maior modelo de pesos abertos até agora, acima de Kimi K2.6, GLM-5.1 e DeepSeek V3.2
- O principal diferencial do DeepSeek V4 é o preço: o Flash custa $0.14 por 1 milhão de tokens de entrada e $0.28 de saída, enquanto o Pro custa $1.74 de entrada e $3.48 de saída, abaixo dos modelos pequenos e grandes comparáveis
- O preço baixo está ligado à eficiência em contexto longo: com contexto de 1 milhão de tokens, o Pro cai para 27% dos FLOPs por token único e 10% do cache KV em relação ao DeepSeek-V3.2, enquanto o Flash cai para 10% dos FLOPs e 7% do cache KV
- Nos benchmarks próprios, o DeepSeek-V4-Pro consegue competir com modelos de fronteira, mas fica um pouco abaixo de GPT-5.4 e Gemini-3.1-Pro, mostrando uma trajetória de desenvolvimento cerca de 3 a 6 meses atrás dos modelos de fronteira mais avançados
Lançamento dos modelos e especificações básicas
- Depois de V3.2 e V3.2 Speciale em dezembro de 2025, a DeepSeek lançou DeepSeek-V4-Pro e DeepSeek-V4-Flash, dois modelos em prévia que inauguram a série V4
- Ambos são modelos Mixture of Experts com suporte a contexto de 1 milhão de tokens e usam a licença MIT padrão
- O DeepSeek-V4-Pro tem 1.6T de parâmetros no total e 49B de parâmetros ativos, enquanto o DeepSeek-V4-Flash tem 284B de parâmetros no total e 13B de parâmetros ativos
- O DeepSeek-V4-Pro é maior que os 1.1T do Kimi K2.6, os 754B do GLM-5.1 e os 685B do DeepSeek V3.2, parecendo ser o novo maior modelo de pesos abertos
- No Hugging Face, o tamanho do modelo é de 865GB para o Pro e 160GB para o Flash; espera-se que uma versão levemente quantizada do Flash possa rodar em um MacBook Pro M5 com 128GB
- O modelo Pro também pode talvez rodar na mesma máquina, se for possível fazer streaming do disco apenas dos especialistas (experts) ativos necessários
-
Teste rápido via OpenRouter
- Usando OpenRouter e llm-openrouter, o modelo foi chamado com o seguinte comando
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Como resultado, foram publicados o SVG de pelicano do DeepSeek-V4-Flash e o SVG de pelicano do DeepSeek-V4-Pro
- Para comparação, também foram mostrados os resultados do mesmo prompt em DeepSeek V3.2 de dezembro de 2025, V3.1 de agosto de 2025 e V3-0324 de março de 2025
Preço, eficiência e posicionamento de desempenho
- O ponto mais chamativo do DeepSeek V4 é o preço e, segundo a página de preços da DeepSeek, o Flash custa $0.14 por 1 milhão de tokens de entrada e $0.28 por 1 milhão de tokens de saída
- O Pro custa $1.74 por 1 milhão de tokens de entrada e $3.48 por 1 milhão de tokens de saída
- Na tabela comparativa, o DeepSeek V4 Flash fica abaixo do GPT-5.4 Nano, com $0.20 de entrada e $1.25 de saída, e do Gemini 3.1 Flash-Lite, com $0.25 de entrada e $1.50 de saída, sendo o mais barato entre os modelos pequenos
- O DeepSeek V4 Pro fica abaixo do Gemini 3.1 Pro, com $2 de entrada e $12 de saída, do GPT-5.4, com $2.50 de entrada e $15 de saída, do Claude Sonnet 4.6, com $3 de entrada e $15 de saída, do Claude Opus 4.7, com $5 de entrada e $25 de saída, e do GPT-5.5, com $5 de entrada e $30 de saída, sendo o mais barato entre os grandes modelos de fronteira
-
A eficiência sustenta o preço baixo
- O artigo da DeepSeek afirma que este lançamento teve forte foco na eficiência de prompts com contexto longo
- Em contexto de 1 milhão de tokens, o DeepSeek-V4-Pro fica em 27% dos FLOPs por token único e 10% do tamanho do cache KV em relação ao DeepSeek-V3.2
- Nas mesmas condições, o DeepSeek-V4-Flash cai para 10% dos FLOPs por token único e 7% do tamanho do cache KV em relação ao DeepSeek-V3.2
-
Nos benchmarks, perto da fronteira, mas ainda atrás do topo
- Os benchmarks divulgados pela própria DeepSeek indicam que o modelo Pro consegue competir com outros modelos de fronteira
- Segundo o artigo, o DeepSeek-V4-Pro-Max com extensão de tokens de raciocínio supera GPT-5.2 e Gemini-3.0-Pro em benchmarks padrão de raciocínio
- Ainda assim, fica um pouco abaixo de GPT-5.4 e Gemini-3.1-Pro, mostrando uma trajetória de desenvolvimento cerca de 3 a 6 meses atrás dos modelos de fronteira de última geração
- Há expectativa pela publicação das versões quantizadas da Unsloth em huggingface.co/unsloth/models, e ainda resta ver quão bem o modelo Flash vai rodar em máquinas locais
2 comentários
No geral, é ótimo ser realmente barato, mas o problema é que é muito lento.... algo que no codex levaria 5 minutos, esse aqui fica pensando por 20 minutos. Então, em vez de usar para implementação, estou usando mais para revisão de código, e nisso ele se sai bem, então estou satisfeito
Comentários do Hacker News
Para mim, o maior diferencial é que o DeepSeek simplesmente faz o que você pede. Recentemente tentei usar tanto o GPT quanto o Claude para engenharia reversa, e os dois recusaram; ainda por cima, até recebi um aviso na minha conta da OpenAI
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
Fiquei realmente irritado, parecia aquele meme antigo do Patrick do SpongeBob. Não entendo por que querem transformar modelos em agentes da lei. O que é ilegal continua sendo ilegal, e já existem profissionais que lidam com crime. O Google não precisa ser árbitro da verdade e da justiça. Já é difícil o suficiente cobrar responsabilidade das autoridades, mas pelo menos elas trabalham para nós
Pessoal dev, que tipo de mundo a gente construiu? Isso é insano. É como imaginar um martelo dizendo: “não me use em parafusos, só em pregos. Se fizer isso de novo, vou me autodestruir”. Queria muito que parassem de fazer software assim
Imagine a OpenAI comprando 20 empresas e, por ter cruzado uma linha vaga uma vez no passado, você não poder mais usar Figma, Next e afins. Não é só a OpenAI; todo o ecossistema está difícil demais de interpretar
Perguntei ao Gemini sobre uma citação de Catch-22, e ele continuava interrompendo no meio da geração dizendo que não podia falar sobre aquilo, apesar de não haver nada violento nem sexual. O livro até tem esse tipo de conteúdo, mas isso já dá a sensação de que a conta inteira do workspace poderia perder pontos só por esse motivo
Idealmente, o futuro deveria ser local, eu sei, mas pensando em custo real e consumo de energia nos próximos anos, não sei o quanto isso é realista para a maioria das pessoas. Se você estiver nesse ecossistema, talvez os processadores M* sejam uma exceção
O DeepSeek v4 Pro, em termos de personalidade, pareceu Claude Opus 4.6, e o custo foi impressionante
Pedi para ele focar em um único endpoint dentro de uma codebase TypeScript bem grande, analisando profundamente API, DTO, serviço e modelos de banco por camada, entendendo completamente os tipos relacionados e sem introduzir tipos temporários
Ele resumiu de forma bem curta, mas essencial, quais tipos eram introduzidos e quais deles eram retornados, e depois pedi que simplificasse tudo
Os dois prompts provavelmente passaram por muitos arquivos, mas o custo total na versão Pro foi de $0.09. Com Claude Opus, mesmo pela minha experiência antes do aumento de preço, esses dois prompts facilmente teriam queimado algo como $9~$13, sem um ganho tão grande assim
Só para constar, usei a API do DeepSeek diretamente, não o OpenRouter. O próprio OpenRouter estava sofrendo limitação de velocidade do lado do DeepSeek
Então criei um MCP baseado em Prolog que analisa o código como um grafo com tree-sitter e permite ao modelo fazer perguntas como “quais funções se conectam a esta função?”. Para ver o que um endpoint específico faz, dá para seguir todo o subgrafo de chamadas de forma trivial e previsível
https://github.com/yogthos/chiasmus
Relacionado a isso, existe uma demo ao vivo rodando o DeepSeek v4 Flash em um MacBook de 128GB. O vídeo é em italiano e tem legendas em inglês
https://www.youtube.com/watch?v=todMmp6AGCE
Conectei no vscode copilot e testei tanto o flash quanto o pro. Para pequenas provas de conceito, o flash foi suficiente, bem rápido e realmente barato
Travou algumas vezes, o que pode ter sido problema de latência, mas ainda assim os resultados foram bons. Usei o pro para tarefas pesadas e planejamento, e ele foi excelente
Paguei cerca de 10 centavos por uma pequena prova de conceito, e funcionou exatamente como eu havia pedido no prompt. Para mim, é uma alternativa real depois de cancelar o GitHub Copilot no fim deste mês
O custo é menor que o dos modelos de ponta, mas há dois fatores que fazem o DS4 Pro e o K2.6 não serem tão baratos quanto parecem à primeira vista
O DS4 Pro está com desconto na API oficial, e isso às vezes é ignorado ou confundido nas discussões. O Simon usou o preço cheio na comparação, então aqui isso não é um problema
O outro problema é que DS4 Pro e K2.6 muitas vezes usam muito mais tokens de raciocínio do que modelos de ponta. Nos meus testes, em alguns casos patológicos, eles consumiram tantos tokens que o custo da requisição ficou igual ao dos modelos de ponta. Para ser justo, uso DS e Kimi por provedores terceirizados, então também pode ser questão de configuração deles
Mas, olhando a página de modelos do Artificial Analysis, nos benchmarks de inteligência o DSv4 Pro usou 190M tokens e o K2.6, 170M, enquanto o GPT 5.5 high usou só 45M
Em “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index”, recomendo olhar na interface para “Intelligence vs Cost”. Os modelos open source continuam mais baratos, mas não tanto quanto se esperaria olhando apenas o preço por token
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
Eles introduziram HCA e mCH, métodos bem novos para melhorar eficiência de contexto longo e atenção. Em comparação com o v3.2, precisam de apenas 27% dos FLOPs para inferência e só 10% para cache KV. Isso significa que dá para servir mais de 3 vezes mais com os mesmos recursos computacionais e usando apenas 30% do cache KV anterior
Além disso, este lançamento ainda é PREVIEW. A DeepSeek é um verdadeiro laboratório de pesquisa aberto, e a cada lançamento não só produz bastante coisa como também publica e compartilha. Eu estou rodando isso localmente
Para falar o quanto é “barato”, no v3.2, em contexto de 256k, a memória GPU acabava e transbordava para a memória do sistema, e mesmo assim eu estava satisfeito com algo como 7 mil tokens por segundo. Agora consigo colocar todo o contexto de 1 milhão de tokens 100% dentro da memória da GPU, rodando mais de 2 vezes mais rápido e com resultados melhores
Isso é realmente barato. A Moonshot deixou claro que está sem GPU, e é por isso. Se eles tivessem capacidade de GPU como nos EUA e tivessem subsidiado o modelo como aqui, teriam distribuído de graça
Quando tentei fazer isso antigamente com o Opus 4.6, eu já tinha queimado todo o orçamento de $10 que eu tinha definido antes mesmo de ele voltar do primeiro prompt
Mesmo que fosse um preço fortemente descontado, ainda teria ficado na casa de um dígito de dólares para uma solução completa, enquanto o Opus teria custado dois dígitos e entregue exatamente nada
O V4 claramente subiu de patamar em relação ao V3.2 no nosso benchmark multilíngue
Mas há duas observações importantes. Ao fazer inferência via OpenRouter, a velocidade (TPS) foi muito baixa e às vezes bem instável. Acabei de verificar e, em todos os provedores disponíveis, está em 10~30 TPS, o que não é muito para um modelo que “pensa” bastante como o DeepSeek
A API oficial do DeepSeek não garante privacidade de dados nem para usuários pagos
Via Azure AI Foundry, talvez nenhum desses dois pontos seja problema. Pelo menos o segundo, até onde eu sei; ainda não testei
De qualquer forma, é bom ver surgirem mais modelos open weight que conseguem competir em algum nível com o estado da arte atual
A API oficial do DeepSeek fica muito mais barata que os modelos de ponta quando usada em sessões longas na mesma codebase, porque a taxa de acerto de cache passa de 99%. Há um exemplo de sessão de 200M tokens no claude code
É surpreendente como as pessoas, especialmente quando usam direto a API do desenvolvedor do modelo, simplesmente não ligam para o fato de que esses modelos treinam publicamente com os seus dados
Quando acontece algo como “o GitHub agora coloca automaticamente o código de todo mundo no opt-in para treinar modelo”, aparecem centenas de comentários, com toda razão, revoltados com isso; mas quando o assunto é usar modelos chineses via OpenRouter, esse ponto quase não aparece mais. Dá para explicar dizendo “são pessoas diferentes”, mas a diferença é tão gritante que parece improvável que seja só isso
Essa é uma das grandes vantagens dos open weight. Nem a China nem os EUA ficam com os meus dados
Isso me dá esperança de que, quando esse circo de subsídios acabar e tudo passar a ser puramente por uso, ainda assim não fique totalmente inacessível para pessoas comuns que não têm um orçamento de $200 por mês
Um é que continuam descobrindo formas de enfiar mais inteligência em modelos menores, então o mesmo hardware passa a oferecer mais capacidade de modelo com o tempo
O outro é que o hardware continua melhorando e a oferta deve alcançar a demanda, então as especificações de hardware que $1 compra vão melhorar com o tempo
Espero que um dia a gente olhe para o modelo atual de “acessar IA via API de provedor” do mesmo jeito que hoje olhamos para a época em que “todo mundo se conectava ao mainframe da empresa”
Usei o v4 pro nos últimos dias e, em qualidade, no geral ele pareceu próximo do OpenAI 5.4 ou do Opus 4.6. Não usei o 4.7
Para deixar claro, não estou fazendo nada de ponta. Usei mais para desenvolvimento frontend, e como não sou muito bom nisso, eu só precisava de protótipos plausíveis
Para o meu objetivo, é um modelo totalmente aceitável e o preço também é razoável. Ainda assim, estou realmente ansioso para sair um modelo aberto pequeno o suficiente para rodar localmente. Não gosto de depender da máquina dos outros e ver meus dados todos indo embora no processo
Para contextualizar, sou cofundador. A abordagem é rodar o modelo dentro de um enclave seguro e verificar se o código open source rodando dentro do enclave corresponde à atestação de runtime. Usamos NVIDIA confidential computing
A documentação explica o processo de verificação: https://docs.tinfoil.sh/verification/verification-in-tinfoil