DeepSeek torna permanente o desconto de preço do V4 Pro
(api-docs.deepseek.com)- O preço da API do DeepSeek-V4-Pro foi oficialmente mantido em 1/4 do preço original mesmo após o fim da promoção de desconto de 75%
- A cobrança é baseada no preço por 1 milhão de tokens, com desconto direto do saldo conforme o uso de tokens de entrada e tokens de saída
- Os modelos compatíveis são DeepSeek-V4-Flash e DeepSeek-V4-Pro, e ambos oferecem modo sem raciocínio e modo com raciocínio, sendo o padrão o modo com raciocínio
- Em ambos os modelos, o comprimento de contexto é de 1M, a saída máxima é de 384K, e o limite de concorrência difere: 2500 para o Flash e 500 para o Pro
- O preço de acerto de cache de entrada de todos os modelos caiu para 1/10 do preço de lançamento, e o ajuste passa a valer a partir de 26 de abril de 2026 às 12:15 UTC
Critérios de cobrança
- A unidade de preço é o valor por 1 milhão de tokens, e token é a menor unidade de texto reconhecida pelo modelo, podendo ser uma palavra, número ou pontuação
- O critério de faturamento é o volume total de tokens de entrada e de saída do modelo
- O custo é calculado como
número de tokens × preçoe descontado diretamente do saldo recarregado ou do saldo concedido - Se houver saldo recarregado e saldo concedido, o saldo concedido será usado primeiro
- Os preços do produto podem mudar, e a DeepSeek se reserva o direito de ajustá-los
- Recomenda-se recarregar de acordo com o uso real e verificar regularmente os preços mais recentes nesta página
Modelos e preços
-
Modelos compatíveis
- São oferecidos DeepSeek-V4-Flash e DeepSeek-V4-Pro
- Ambos os modelos oferecem modo sem raciocínio e modo com raciocínio, sendo o padrão o modo com raciocínio
- Os nomes de modelo
deepseek-chatedeepseek-reasonerserão descontinuados no futuro - Para compatibilidade,
deepseek-chatcorresponde ao modo sem raciocínio dedeepseek-v4-flash, edeepseek-reasonercorresponde ao modo com raciocínio dedeepseek-v4-flash
-
Endpoint e recursos
- A Base URL no formato Anthropic é https://api.deepseek.com/anthropic
- A forma de alternar o modo com raciocínio pode ser consultada em Thinking Mode
- A documentação de recursos relacionados inclui Json Output, Tool Calls, Chat Prefix Completion(Beta), FIM Completion(Beta)
-
Limites de contexto e saída
- O comprimento de contexto é de 1M
- A saída máxima é de 384K
Preço por 1 milhão de tokens
| Item | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| Tokens de entrada, acerto de cache | $0.0028 | $0.003625 |
| Tokens de entrada, sem acerto de cache | $0.14 | $0.435 |
| Tokens de saída | $0.28 | $0.87 |
| Limite de concorrência | 2500 | 500 |
-
Ajuste de desconto do DeepSeek-V4-Pro
- O preço do DeepSeek-V4-Pro é exibido com desconto de 75%
- O preço dos tokens de entrada com acerto de cache caiu de $0.0145 para $0.003625
- O preço dos tokens de entrada sem acerto de cache caiu de $1.74 para $0.435
- O preço dos tokens de saída caiu de $3.48 para $0.87
- Mesmo após o fim da promoção de desconto de 75% em 31 de maio de 2026 às 15:59 UTC, o preço da API do DeepSeek-V4-Pro foi oficialmente ajustado para 1/4 do preço original
-
Redução do preço de acerto de cache
- O preço de acerto de cache de entrada de todos os modelos foi reduzido para 1/10 do preço de lançamento
- Esse ajuste de preço passa a valer a partir de 26 de abril de 2026 às 12:15 UTC
-
Limites de concorrência
- O limite de concorrência do DeepSeek-V4-Flash é 2500
- O limite de concorrência do DeepSeek-V4-Pro é 500
- Mais detalhes sobre limites de concorrência podem ser consultados em Rate Limit & Isolation
1 comentários
Comentários do Hacker News
Se lançarem seu próprio agente de código, talvez eu comece a usar os modelos da DeepSeek como principal
Parece que continuam fazendo as coisas “na direção certa”, como abrir o código dos modelos, publicar pesquisas e manter preços baixos
Dá para usar o V4 Pro no Claude Code 1
Testei pessoalmente e fiquei impressionado
Também funciona muito bem com o OpenCode
Nossa equipe bate com frequência no limite de 5 horas de outros serviços por assinatura, então ter o DeepSeek como backup é bem útil
Coloquei só 50 dólares de crédito e parece que nunca vai acabar
Ainda não substitui totalmente os modelos de ponta, mas como backup é excelente com certeza
Nem acho que a DeepSeek precise oferecer um agente de código
Basta conectar o modelo a qualquer agente de código já existente
Pessoalmente prefiro o Pi, mas cada um usa o que funcionar melhor
Comecei a testar os modelos chineses na minha base de código no começo desta semana
Até agora vi mais classificação de issues, correção automática de bugs, análise de logs etc. do que programação conversacional; comparei DeepSeek, Kimi, GLM, Qwen e MiMO com GPT-5.5 high, tudo rodando no harness do Pi sem instalação
Até agora, Kimi e MiMO parecem os mais promissores
Ainda não testei de forma suficientemente rigorosa, mas minha impressão inicial é que, em tarefas comuns do dia a dia no trabalho, esses modelos talvez não estejam tão atrás quanto as pessoas imaginam
Só que eles parecem mais do tipo “trabalhar duro em vez de trabalhar com inteligência”: chegam a resultados parecidos mais devagar e usando mais tokens, mas o preço é muito menor
Seria bom se os agentes de código fossem até certo ponto independentes do fornecedor do modelo
Os provedores mudam qualidade, recursos e preço com frequência demais, e eu não queria ter que trocar de agente toda vez por causa disso
Espero que a situação desacelere um pouco e se estabilize
Não quer dizer que precise acontecer agora, mas seria bom chegar nesse ponto
Se você ainda não usou o DeepSeek V4, está perdendo muito
É bom num nível difícil de acreditar por esse preço
A cadeia de raciocínio do DeepSeek é realmente interessante de ler
O OpenCode não mostra isso, mas, se você ler diretamente, pode se surpreender com o quanto esse modelo é subestimado
Meu uso de modelos é bem pequeno, mas pago regularmente à DeepSeek de forma direta como agradecimento por abrir o código dos modelos e para apoiar o que vejo como um bem social no geral
É bom e barato, mas se você puxar assunto político, podem entrar em ação regras de censura
Eu estava vendo o processo de raciocínio e, de repente, ele apagou tudo e sugeriu mudar de assunto sem dar explicação
Em outra ocasião, soltou uma mensagem genérica sobre como a mídia deve servir ao povo
Fiquei surpreso porque nenhum dos dois pedidos era sensível, ilegal ou subversivo
Mas eram temas minimamente políticos, e isso já bastou
A censura ocidental costuma ser mais sutil, então foi perturbador e estranhamente refrescante ao mesmo tempo
Sim, o modelo é realmente bom
No trabalho eu uso Claude e, no pessoal, uso DeepSeek; é o único modelo que não está tentando ativamente me levar à falência
Gosto do V4 Pro para tarefas específicas, mas para programação o V4 Flash me impressionou bastante
Ele é conciso, vai direto ao ponto, erra menos e é bem rápido
No CLI do opencode dá para ver os rastros de raciocínio
Pode ser uma questão de configuração
No opencode você pode ativar e desativar a exibição do raciocínio
Esse preço é suspeitamente baixo
O mesmo modelo hospedado por outros provedores custa muito mais 0
Então ou a DeepSeek consegue hospedar isso muito mais barato que os outros, ou o modelo de negócios é diferente, e eu suspeito da segunda opção
Principalmente porque a política de privacidade 1 diz que pode usar dados pessoais, incluindo “User Input”, para “melhorar e desenvolver o serviço, além de treinamento e aprimoramento tecnológico”
Pode ser uma pergunta boba, mas olhando no OpenRouter fiquei me perguntando se realmente não há provedores de DeepSeek fora dos EUA, Singapura e China
Parece um produto bom demais para não haver oferta na Europa ou em outros provedores ocidentais
Tenho certeza de que seria um salto muito maior do que o Mistral
Quero testar esses modelos, mas prefiro evitar provedores que treinam com meus dados ou os armazenam além das exigências legais padrão
São vários fatores atuando juntos
Em termos de eficiência da pilha de inferência, muitos provedores pegam um sglang / vllm / trtllm pronto e esperam pelo melhor, mas a equipe da DeepSeek é conhecida por levar os limites de otimização ao extremo
sglang e vllm são ótimos softwares, mas, olhando para a atenção esparsa da DeepSeek (DSA), ela foi introduzida há 1,5 ano (https://arxiv.org/abs/2512.02556) e usada no DeepSeek 3.2, GLM 5 e DeepSeek V4
Só agora os principais motores de inferência estão começando a adicionar otimizações lentamente: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 etc.)
Claro, o DS V4 adicionou otimizações de arquitetura de modelo por cima da DSA, e ainda vai levar tempo até que motores de inferência open source consigam aproveitar isso por completo
Do ponto de vista de privacidade, existe a aposta de que as pessoas vão pagar mais por inferência hospedada fora da China
Isso é especialmente verdadeiro porque a DeepSeek deixa claro, de forma transparente, que usa dados da API para melhorar o modelo
Além disso, há fatores como escala (muito importante em MoE), confiabilidade e uma dependência corporativa mais suave
Também há uma grande chance de conluio implícito
Se você olhar os preços do GLM 5 e do GLM 5.1, o custo de execução dos dois é o mesmo, mas o 5.1 é um modelo muito melhor, e como a Z.AI aumentou o preço, os provedores também passaram a cobrar mais caro pelo 5.1
Eles estão claramente vendendo no prejuízo
E por que não fariam isso?
Ganhar participação de mercado operando no prejuízo não é uma patente exclusiva dos EUA
Talvez você não conheça o suficiente sobre o fundador da DeepSeek, Liang Wenfeng
Ele também é fundador da High-Flyer Quant
Tenho ainda mais curiosidade com a parte de cache
Está escrito que “em todos os modelos, o preço de acerto no cache de entrada foi reduzido para 1/10 do preço de lançamento, e esse ajuste passa a valer a partir de 2026/4/26 12:15 UTC”
Não há data de término
Hoje o DeepSeek V4 Flash custa 2% do preço de entrada, e no novo preço do V4 Pro isso dá 0,8%, algo extremamente baixo em relação aos concorrentes e suficiente para afetar a economia unitária, então achei que fosse temporário
No caso do V4 Pro, o custo efetivo considerando cache fica em cerca de US$ 0,04 por milhão de tokens de entrada (segundo os dados do OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
É muito mais barato até do que modelos pequenos dos concorrentes
O cache KV do DeepSeek V4 é muito eficiente graças à estrutura de atenção esparsa fortemente comprimida
O DeepSeek V3.2, que usa só DSA, é um modelo menor, mas numa janela de contexto de 1 milhão consome 10 vezes mais memória do que o DS V4 Pro
Além disso, a API da DeepSeek tem uma taxa de acerto de cache muito boa
Na mesma carga de trabalho, grandes provedores ocidentais de inferência que oferecem modelos de pesos abertos ficam em cerca de 50% de acerto no cache KV, enquanto a API da DS chega a cerca de 80%
O grande ponto do DeepSeek V4 é que o tamanho do cache KV caiu bastante
O Flash em si não é um modelo tão competitivo assim, e o preço dele também fica numa faixa parecida com a de outros modelos do mercado
O concorrente mais direto do modelo Flash provavelmente seria algo assim
GPT 5.4 mini
Cache Read
$0.075
/M tokens
Gemini 3 flash:
Cache Read
$0.05
/M tokens
Então não é nada especialmente mágico ou revolucionário
Sonnet:
Cache Read
$0.30
Gemini 3.5 flash:
Cache Read
$0.15
O custo-benefício é absurdo
Venho usando o GLM Coding Plan Max com GLM 5.1 há algum tempo e também testei o DeepSeek V4 Pro por umas 3 semanas; em tarefas complexas de programação, eu diria que ele é melhor que o GLM 5.1
Usei 65 milhões de tokens e a conta deu 1,5 dólar nesse preço, é realmente muito barato
Impressionante
Com isso, o DeepSeek V4 Pro fica extremamente barato em relação aos outros modelos até dentro da mesma categoria
Se olhar o preço por milhão de tokens de saída, fica assim
DeepSeek V4 Pro: $0.87
Qwen 3.7 Max: $7.50
Grok 4.3: $2.50
GLM 1.5: $3.08
Opus 4.7: $25.00
GPT-5.5: $30.00
Em fluxos de trabalho com agentes, esse custo pode ser dominante, e o custo de leitura de cache da DeepSeek é absurdamente baixo em comparação
São $0.003626 por milhão de tokens, e o segundo mais barato da lista ainda passa de $0.2 por milhão
É quase uma diferença de 100 vezes
Isso mostra que é possível fazer inferência de forma eficiente se não exigirem que deixem você queimar dinheiro sem restrições
Se, dois meses depois da assinatura, piorarem o Opus a ponto de ele ficar abaixo do GPT-3 para cortar custos, de nada adianta o Opus ser bom
Mesmo considerando o desconto do V4 Pro, o V4 Flash ainda entrega o melhor desempenho por dólar e, em tarefas com perfil de agente e uso intenso de ferramentas, o desempenho geral também é melhor
O V4 Pro é mais inteligente em inferência de rodada única, mas a diferença de velocidade é grande
Somando desempenho, custo e velocidade, o V4 Flash é de longe o melhor modelo flash para nós neste momento
Os dados estão em https://gertlabs.com/rankings
A arquitetura MLA deles reduz o cache KV em cerca de 5 a 13 vezes em relação à atenção padrão
Então não se trata apenas de uma guerra de preços para ganhar participação de mercado; o custo real de executar a inferência é mesmo mais baixo
Passa a ser possível ter contexto longo, inferência em lote e armazenamento em disco do cache KV em plataformas comuns de consumo
É bem possível que esse desconto tenha sido um experimento de mercado pós-lançamento para verificar quão eficientemente o cache funciona na nova geração de modelos
Eu me preocupo mais com vazamento acidental de dados em modelos hospedados na China do que em modelos hospedados nos EUA
Por exemplo, algo como um agente ler um arquivo env
Será errado suspeitar que o governo chinês tem mais probabilidade do que o governo ou empresas dos EUA de escanear todas as conversas e guardar informações úteis?
Hesitei até em escrever este comentário porque isso pode soar tendencioso ou xenófobo
Gostaria que alguém me convencesse de que estou errado
Alguém sabe que tipo de empresa está por trás da hospedagem do DeepSeek e se ela tem histórico de respeito à privacidade dos dados?
Não é uma preocupação irracional
Por isso a maioria das empresas dos EUA prefere AWS Bedrock ou laboratórios de IA, e normalmente pede contratos sem retenção de dados
Mas existe risco de vazamento em qualquer lugar onde esteja hospedado; o que muda, na minha visão, é a estrutura de incentivos
Por exemplo, os laboratórios também escaneiam todas as conversas e treinam com dados que não estejam protegidos por contratos empresariais ZDR
Autoridades policiais podem solicitar acesso a todos os dados de usuários com mandado válido ou em situações de emergência 1
Se você quiser usar o DeepSeek V4 de forma privada, pode experimentar o Tinfoil (tinfoil.sh)
Ele hospeda todos os modelos em enclaves de hardware seguro verificável, tornando a inferência privada de ponta a ponta
Aviso: sou um dos cofundadores
1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
Basta usar por meio de algo como o Azure
Eles hospedam o modelo completo e o oferecem nos EUA
Deve haver outros provedores assim também
Nós usamos dessa forma e funciona muito bem
Eu não ficaria surpreso se eles fizessem isso
Também não me surpreenderia muito se modelos sediados nos EUA fizessem isso em nome de outros governos
Não tenho grandes expectativas quando o assunto é confidencialidade de dados
A Microsoft marca todas as caixinhas corporativas, mas o Azure também sofre violações de vez em quando
Eu diria que a possibilidade não é zero
Pequim pode decidir a qualquer momento que o DeepSeek ficou poderoso demais ou virou um produto de exportação importante, e intervir
Nem há garantia de que isso já não tenha acontecido
Há muitos relatos de atores estrangeiros, não apenas da China, que já se infiltraram massivamente em redes críticas de vários setores dos EUA e estão esperando o momento certo para explorar isso
Modelos de ponta são mais um vetor de ataque e, pensando bem, podem ser muito mais fáceis de explorar
Na verdade, essa possibilidade existe com qualquer modelo hospedado em nuvem
Seja porque a empresa que faz o modelo agiu intencionalmente, seja porque um agente malicioso explorou uma vulnerabilidade
Não sou importante o bastante para que alguém na China queira me atacar especificamente
E a DeepSeek precisa manter um nível de confiança suficiente para que os usuários continuem usando a plataforma
Se eles se comportarem como um keylogger atacando a carteira cripto de todo mundo, a confiança desaba
Se eu estivesse fazendo algo que o governo chinês considerasse estrategicamente importante, claro que eu me preocuparia, mas não é o meu caso
Na verdade, me preocupa mais que os bilionários da tecnologia deste país façam um perfilamento amplo da minha vida com LLMs e construam aqui algo muito mais distópico do que qualquer sistema real ou imaginário de crédito social da China
As pessoas que tentam convencer você, cidadão americano, de que deveria temer o governo chinês talvez sejam justamente aquelas com quem você mais deveria se preocupar
Se alguém quiser conectar isso ao copilot, eu tinha feito um script de proxy para lidar com a conexão um tempo atrás, e pode ser útil: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...