DeepSeek torna permanente o desconto de preço do V4 Pro

(api-docs.deepseek.com)

3 pontos por GN⁺ 2026-05-23 | 3 comentários | Compartilhar no WhatsApp

O preço da API do DeepSeek-V4-Pro foi oficialmente mantido em 1/4 do preço original mesmo após o fim da promoção de desconto de 75%
A cobrança é baseada no preço por 1 milhão de tokens, com desconto direto do saldo conforme o uso de tokens de entrada e tokens de saída
Os modelos compatíveis são DeepSeek-V4-Flash e DeepSeek-V4-Pro, e ambos oferecem modo sem raciocínio e modo com raciocínio, sendo o padrão o modo com raciocínio
Em ambos os modelos, o comprimento de contexto é de 1M, a saída máxima é de 384K, e o limite de concorrência difere: 2500 para o Flash e 500 para o Pro
O preço de acerto de cache de entrada de todos os modelos caiu para 1/10 do preço de lançamento, e o ajuste passa a valer a partir de 26 de abril de 2026 às 12:15 UTC

Critérios de cobrança

A unidade de preço é o valor por 1 milhão de tokens, e token é a menor unidade de texto reconhecida pelo modelo, podendo ser uma palavra, número ou pontuação
O critério de faturamento é o volume total de tokens de entrada e de saída do modelo
O custo é calculado como número de tokens × preço e descontado diretamente do saldo recarregado ou do saldo concedido
Se houver saldo recarregado e saldo concedido, o saldo concedido será usado primeiro
Os preços do produto podem mudar, e a DeepSeek se reserva o direito de ajustá-los
Recomenda-se recarregar de acordo com o uso real e verificar regularmente os preços mais recentes nesta página

Modelos e preços

Modelos compatíveis
- São oferecidos DeepSeek-V4-Flash e DeepSeek-V4-Pro
- Ambos os modelos oferecem modo sem raciocínio e modo com raciocínio, sendo o padrão o modo com raciocínio
- Os nomes de modelo deepseek-chat e deepseek-reasoner serão descontinuados no futuro
- Para compatibilidade, deepseek-chat corresponde ao modo sem raciocínio de deepseek-v4-flash, e deepseek-reasoner corresponde ao modo com raciocínio de deepseek-v4-flash
Endpoint e recursos
- A Base URL no formato Anthropic é https://api.deepseek.com/anthropic
- A forma de alternar o modo com raciocínio pode ser consultada em Thinking Mode
- A documentação de recursos relacionados inclui Json Output, Tool Calls, Chat Prefix Completion（Beta）, FIM Completion（Beta）
Limites de contexto e saída
- O comprimento de contexto é de 1M
- A saída máxima é de 384K

Preço por 1 milhão de tokens

Item	DeepSeek-V4-Flash	DeepSeek-V4-Pro
Tokens de entrada, acerto de cache	$0.0028	$0.003625
Tokens de entrada, sem acerto de cache	$0.14	$0.435
Tokens de saída	$0.28	$0.87
Limite de concorrência	2500	500

Ajuste de desconto do DeepSeek-V4-Pro
- O preço do DeepSeek-V4-Pro é exibido com desconto de 75%
- O preço dos tokens de entrada com acerto de cache caiu de $0.0145 para $0.003625
- O preço dos tokens de entrada sem acerto de cache caiu de $1.74 para $0.435
- O preço dos tokens de saída caiu de $3.48 para $0.87
- Mesmo após o fim da promoção de desconto de 75% em 31 de maio de 2026 às 15:59 UTC, o preço da API do DeepSeek-V4-Pro foi oficialmente ajustado para 1/4 do preço original
Redução do preço de acerto de cache
- O preço de acerto de cache de entrada de todos os modelos foi reduzido para 1/10 do preço de lançamento
- Esse ajuste de preço passa a valer a partir de 26 de abril de 2026 às 12:15 UTC
Limites de concorrência
- O limite de concorrência do DeepSeek-V4-Flash é 2500
- O limite de concorrência do DeepSeek-V4-Pro é 500
- Mais detalhes sobre limites de concorrência podem ser consultados em Rate Limit & Isolation

3 comentários

j2sus91 27 일 전

Se você olhar os termos, dizem que não há uma cláusula explícita informando que o uso da API não será utilizado para treinamento.
Acho que vale a pena considerar esse ponto ao usar~

myoun 28 일 전

Ah, que bom

GN⁺ 2026-05-23

Comentários do Hacker News

Se lançarem seu próprio agente de código, talvez eu comece a usar os modelos da DeepSeek como principal
Parece que continuam fazendo as coisas “na direção certa”, como abrir o código dos modelos, publicar pesquisas e manter preços baixos
- Dá para usar o V4 Pro no Claude Code 1
  Testei pessoalmente e fiquei impressionado
- Também funciona muito bem com o OpenCode
  Nossa equipe bate com frequência no limite de 5 horas de outros serviços por assinatura, então ter o DeepSeek como backup é bem útil
  Coloquei só 50 dólares de crédito e parece que nunca vai acabar
  
  Ainda não substitui totalmente os modelos de ponta, mas como backup é excelente com certeza
- Nem acho que a DeepSeek precise oferecer um agente de código
  Basta conectar o modelo a qualquer agente de código já existente
  Pessoalmente prefiro o Pi, mas cada um usa o que funcionar melhor
- Comecei a testar os modelos chineses na minha base de código no começo desta semana
  Até agora vi mais classificação de issues, correção automática de bugs, análise de logs etc. do que programação conversacional; comparei DeepSeek, Kimi, GLM, Qwen e MiMO com GPT-5.5 high, tudo rodando no harness do Pi sem instalação
  
  Até agora, Kimi e MiMO parecem os mais promissores
  Ainda não testei de forma suficientemente rigorosa, mas minha impressão inicial é que, em tarefas comuns do dia a dia no trabalho, esses modelos talvez não estejam tão atrás quanto as pessoas imaginam
  
  Só que eles parecem mais do tipo “trabalhar duro em vez de trabalhar com inteligência”: chegam a resultados parecidos mais devagar e usando mais tokens, mas o preço é muito menor
- Seria bom se os agentes de código fossem até certo ponto independentes do fornecedor do modelo
  Os provedores mudam qualidade, recursos e preço com frequência demais, e eu não queria ter que trocar de agente toda vez por causa disso
  
  Espero que a situação desacelere um pouco e se estabilize
  Não quer dizer que precise acontecer agora, mas seria bom chegar nesse ponto
Se você ainda não usou o DeepSeek V4, está perdendo muito
É bom num nível difícil de acreditar por esse preço

A cadeia de raciocínio do DeepSeek é realmente interessante de ler
O OpenCode não mostra isso, mas, se você ler diretamente, pode se surpreender com o quanto esse modelo é subestimado

Meu uso de modelos é bem pequeno, mas pago regularmente à DeepSeek de forma direta como agradecimento por abrir o código dos modelos e para apoiar o que vejo como um bem social no geral
- É bom e barato, mas se você puxar assunto político, podem entrar em ação regras de censura
  Eu estava vendo o processo de raciocínio e, de repente, ele apagou tudo e sugeriu mudar de assunto sem dar explicação
  Em outra ocasião, soltou uma mensagem genérica sobre como a mídia deve servir ao povo
  
  Fiquei surpreso porque nenhum dos dois pedidos era sensível, ilegal ou subversivo
  Mas eram temas minimamente políticos, e isso já bastou
  A censura ocidental costuma ser mais sutil, então foi perturbador e estranhamente refrescante ao mesmo tempo
- Sim, o modelo é realmente bom
  No trabalho eu uso Claude e, no pessoal, uso DeepSeek; é o único modelo que não está tentando ativamente me levar à falência
- Gosto do V4 Pro para tarefas específicas, mas para programação o V4 Flash me impressionou bastante
  Ele é conciso, vai direto ao ponto, erra menos e é bem rápido
- No CLI do opencode dá para ver os rastros de raciocínio
  Pode ser uma questão de configuração
- No opencode você pode ativar e desativar a exibição do raciocínio
Esse preço é suspeitamente baixo
O mesmo modelo hospedado por outros provedores custa muito mais 0
Então ou a DeepSeek consegue hospedar isso muito mais barato que os outros, ou o modelo de negócios é diferente, e eu suspeito da segunda opção
Principalmente porque a política de privacidade 1 diz que pode usar dados pessoais, incluindo “User Input”, para “melhorar e desenvolver o serviço, além de treinamento e aprimoramento tecnológico”
- Pode ser uma pergunta boba, mas olhando no OpenRouter fiquei me perguntando se realmente não há provedores de DeepSeek fora dos EUA, Singapura e China
  Parece um produto bom demais para não haver oferta na Europa ou em outros provedores ocidentais
  Tenho certeza de que seria um salto muito maior do que o Mistral
  
  Quero testar esses modelos, mas prefiro evitar provedores que treinam com meus dados ou os armazenam além das exigências legais padrão
- São vários fatores atuando juntos
  Em termos de eficiência da pilha de inferência, muitos provedores pegam um sglang / vllm / trtllm pronto e esperam pelo melhor, mas a equipe da DeepSeek é conhecida por levar os limites de otimização ao extremo
  
  sglang e vllm são ótimos softwares, mas, olhando para a atenção esparsa da DeepSeek (DSA), ela foi introduzida há 1,5 ano (https://arxiv.org/abs/2512.02556) e usada no DeepSeek 3.2, GLM 5 e DeepSeek V4
  Só agora os principais motores de inferência estão começando a adicionar otimizações lentamente: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 etc.)
  Claro, o DS V4 adicionou otimizações de arquitetura de modelo por cima da DSA, e ainda vai levar tempo até que motores de inferência open source consigam aproveitar isso por completo
  
  Do ponto de vista de privacidade, existe a aposta de que as pessoas vão pagar mais por inferência hospedada fora da China
  Isso é especialmente verdadeiro porque a DeepSeek deixa claro, de forma transparente, que usa dados da API para melhorar o modelo
  
  Além disso, há fatores como escala (muito importante em MoE), confiabilidade e uma dependência corporativa mais suave
  
  Também há uma grande chance de conluio implícito
  Se você olhar os preços do GLM 5 e do GLM 5.1, o custo de execução dos dois é o mesmo, mas o 5.1 é um modelo muito melhor, e como a Z.AI aumentou o preço, os provedores também passaram a cobrar mais caro pelo 5.1
- Eles estão claramente vendendo no prejuízo
  E por que não fariam isso?
  Ganhar participação de mercado operando no prejuízo não é uma patente exclusiva dos EUA
- Talvez você não conheça o suficiente sobre o fundador da DeepSeek, Liang Wenfeng
  Ele também é fundador da High-Flyer Quant
Tenho ainda mais curiosidade com a parte de cache
Está escrito que “em todos os modelos, o preço de acerto no cache de entrada foi reduzido para 1/10 do preço de lançamento, e esse ajuste passa a valer a partir de 2026/4/26 12:15 UTC”

Não há data de término
Hoje o DeepSeek V4 Flash custa 2% do preço de entrada, e no novo preço do V4 Pro isso dá 0,8%, algo extremamente baixo em relação aos concorrentes e suficiente para afetar a economia unitária, então achei que fosse temporário

No caso do V4 Pro, o custo efetivo considerando cache fica em cerca de US$ 0,04 por milhão de tokens de entrada (segundo os dados do OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
É muito mais barato até do que modelos pequenos dos concorrentes
- O cache KV do DeepSeek V4 é muito eficiente graças à estrutura de atenção esparsa fortemente comprimida
  O DeepSeek V3.2, que usa só DSA, é um modelo menor, mas numa janela de contexto de 1 milhão consome 10 vezes mais memória do que o DS V4 Pro
  
  Além disso, a API da DeepSeek tem uma taxa de acerto de cache muito boa
  Na mesma carga de trabalho, grandes provedores ocidentais de inferência que oferecem modelos de pesos abertos ficam em cerca de 50% de acerto no cache KV, enquanto a API da DS chega a cerca de 80%
- O grande ponto do DeepSeek V4 é que o tamanho do cache KV caiu bastante
- O Flash em si não é um modelo tão competitivo assim, e o preço dele também fica numa faixa parecida com a de outros modelos do mercado
  O concorrente mais direto do modelo Flash provavelmente seria algo assim
  
  GPT 5.4 mini
  
  Cache Read
  $0.075
  /M tokens
  
  Gemini 3 flash:
  
  Cache Read
  $0.05
  /M tokens
  
  Então não é nada especialmente mágico ou revolucionário
- Sonnet:
  Cache Read
  $0.30
  
  Gemini 3.5 flash:
  Cache Read
  $0.15
O custo-benefício é absurdo
Venho usando o GLM Coding Plan Max com GLM 5.1 há algum tempo e também testei o DeepSeek V4 Pro por umas 3 semanas; em tarefas complexas de programação, eu diria que ele é melhor que o GLM 5.1
Usei 65 milhões de tokens e a conta deu 1,5 dólar nesse preço, é realmente muito barato
- Parece que o DeepSeek usa muito mais tokens do que os outros modelos
Impressionante
Com isso, o DeepSeek V4 Pro fica extremamente barato em relação aos outros modelos até dentro da mesma categoria
Se olhar o preço por milhão de tokens de saída, fica assim

DeepSeek V4 Pro: $0.87

Qwen 3.7 Max: $7.50

Grok 4.3: $2.50

GLM 1.5: $3.08

Opus 4.7: $25.00

GPT-5.5: $30.00
- Considerando também o custo de leitura de cache, na prática fica ainda mais barato
  Em fluxos de trabalho com agentes, esse custo pode ser dominante, e o custo de leitura de cache da DeepSeek é absurdamente baixo em comparação
  São $0.003626 por milhão de tokens, e o segundo mais barato da lista ainda passa de $0.2 por milhão
  É quase uma diferença de 100 vezes
- Da próxima vez que alguém disser “pare de reclamar de limite de uso, sua assinatura está fazendo a empresa operar no prejuízo”, vou linkar este comentário
  Isso mostra que é possível fazer inferência de forma eficiente se não exigirem que deixem você queimar dinheiro sem restrições
- E depois de assinar, eles também não pioram o modelo
  Se, dois meses depois da assinatura, piorarem o Opus a ponto de ele ficar abaixo do GPT-3 para cortar custos, de nada adianta o Opus ser bom
- É GLM 5.1
Mesmo considerando o desconto do V4 Pro, o V4 Flash ainda entrega o melhor desempenho por dólar e, em tarefas com perfil de agente e uso intenso de ferramentas, o desempenho geral também é melhor
O V4 Pro é mais inteligente em inferência de rodada única, mas a diferença de velocidade é grande
Somando desempenho, custo e velocidade, o V4 Flash é de longe o melhor modelo flash para nós neste momento

Os dados estão em https://gertlabs.com/rankings
- No meu caso de uso, principalmente resumos muito grandes e extração de ideias, ele foi bem pior em comparação ao Pro
A arquitetura MLA deles reduz o cache KV em cerca de 5 a 13 vezes em relação à atenção padrão
Então não se trata apenas de uma guerra de preços para ganhar participação de mercado; o custo real de executar a inferência é mesmo mais baixo
- Isso também é um divisor de águas para inferência local
  Passa a ser possível ter contexto longo, inferência em lote e armazenamento em disco do cache KV em plataformas comuns de consumo
- Sim
  É bem possível que esse desconto tenha sido um experimento de mercado pós-lançamento para verificar quão eficientemente o cache funciona na nova geração de modelos
Eu me preocupo mais com vazamento acidental de dados em modelos hospedados na China do que em modelos hospedados nos EUA
Por exemplo, algo como um agente ler um arquivo env
Será errado suspeitar que o governo chinês tem mais probabilidade do que o governo ou empresas dos EUA de escanear todas as conversas e guardar informações úteis?

Hesitei até em escrever este comentário porque isso pode soar tendencioso ou xenófobo
Gostaria que alguém me convencesse de que estou errado
Alguém sabe que tipo de empresa está por trás da hospedagem do DeepSeek e se ela tem histórico de respeito à privacidade dos dados?
- Não é uma preocupação irracional
  Por isso a maioria das empresas dos EUA prefere AWS Bedrock ou laboratórios de IA, e normalmente pede contratos sem retenção de dados
  Mas existe risco de vazamento em qualquer lugar onde esteja hospedado; o que muda, na minha visão, é a estrutura de incentivos
  
  Por exemplo, os laboratórios também escaneiam todas as conversas e treinam com dados que não estejam protegidos por contratos empresariais ZDR
  Autoridades policiais podem solicitar acesso a todos os dados de usuários com mandado válido ou em situações de emergência 1
  
  Se você quiser usar o DeepSeek V4 de forma privada, pode experimentar o Tinfoil (tinfoil.sh)
  Ele hospeda todos os modelos em enclaves de hardware seguro verificável, tornando a inferência privada de ponta a ponta
  Aviso: sou um dos cofundadores
  
  1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
- Basta usar por meio de algo como o Azure
  Eles hospedam o modelo completo e o oferecem nos EUA
  Deve haver outros provedores assim também
  
  Nós usamos dessa forma e funciona muito bem
- Eu não ficaria surpreso se eles fizessem isso
  Também não me surpreenderia muito se modelos sediados nos EUA fizessem isso em nome de outros governos
  Não tenho grandes expectativas quando o assunto é confidencialidade de dados
  A Microsoft marca todas as caixinhas corporativas, mas o Azure também sofre violações de vez em quando
- Eu diria que a possibilidade não é zero
  Pequim pode decidir a qualquer momento que o DeepSeek ficou poderoso demais ou virou um produto de exportação importante, e intervir
  Nem há garantia de que isso já não tenha acontecido
  
  Há muitos relatos de atores estrangeiros, não apenas da China, que já se infiltraram massivamente em redes críticas de vários setores dos EUA e estão esperando o momento certo para explorar isso
  Modelos de ponta são mais um vetor de ataque e, pensando bem, podem ser muito mais fáceis de explorar
  
  Na verdade, essa possibilidade existe com qualquer modelo hospedado em nuvem
  Seja porque a empresa que faz o modelo agiu intencionalmente, seja porque um agente malicioso explorou uma vulnerabilidade
- Não sou importante o bastante para que alguém na China queira me atacar especificamente
  E a DeepSeek precisa manter um nível de confiança suficiente para que os usuários continuem usando a plataforma
  Se eles se comportarem como um keylogger atacando a carteira cripto de todo mundo, a confiança desaba
  
  Se eu estivesse fazendo algo que o governo chinês considerasse estrategicamente importante, claro que eu me preocuparia, mas não é o meu caso
  
  Na verdade, me preocupa mais que os bilionários da tecnologia deste país façam um perfilamento amplo da minha vida com LLMs e construam aqui algo muito mais distópico do que qualquer sistema real ou imaginário de crédito social da China
  As pessoas que tentam convencer você, cidadão americano, de que deveria temer o governo chinês talvez sejam justamente aquelas com quem você mais deveria se preocupar
Se alguém quiser conectar isso ao copilot, eu tinha feito um script de proxy para lidar com a conexão um tempo atrás, e pode ser útil: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...

DeepSeek torna permanente o desconto de preço do V4 Pro

Critérios de cobrança

Modelos e preços

Modelos compatíveis

Endpoint e recursos

Limites de contexto e saída

Preço por 1 milhão de tokens

Ajuste de desconto do DeepSeek-V4-Pro

Redução do preço de acerto de cache

Limites de concorrência

Leituras relacionadas

3 comentários

Comentários do Hacker News