1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • O preço da API do DeepSeek-V4-Pro foi oficialmente mantido em 1/4 do preço original mesmo após o fim da promoção de desconto de 75%
  • A cobrança é baseada no preço por 1 milhão de tokens, com desconto direto do saldo conforme o uso de tokens de entrada e tokens de saída
  • Os modelos compatíveis são DeepSeek-V4-Flash e DeepSeek-V4-Pro, e ambos oferecem modo sem raciocínio e modo com raciocínio, sendo o padrão o modo com raciocínio
  • Em ambos os modelos, o comprimento de contexto é de 1M, a saída máxima é de 384K, e o limite de concorrência difere: 2500 para o Flash e 500 para o Pro
  • O preço de acerto de cache de entrada de todos os modelos caiu para 1/10 do preço de lançamento, e o ajuste passa a valer a partir de 26 de abril de 2026 às 12:15 UTC

Critérios de cobrança

  • A unidade de preço é o valor por 1 milhão de tokens, e token é a menor unidade de texto reconhecida pelo modelo, podendo ser uma palavra, número ou pontuação
  • O critério de faturamento é o volume total de tokens de entrada e de saída do modelo
  • O custo é calculado como número de tokens × preço e descontado diretamente do saldo recarregado ou do saldo concedido
  • Se houver saldo recarregado e saldo concedido, o saldo concedido será usado primeiro
  • Os preços do produto podem mudar, e a DeepSeek se reserva o direito de ajustá-los
  • Recomenda-se recarregar de acordo com o uso real e verificar regularmente os preços mais recentes nesta página

Modelos e preços

  • Modelos compatíveis

    • São oferecidos DeepSeek-V4-Flash e DeepSeek-V4-Pro
    • Ambos os modelos oferecem modo sem raciocínio e modo com raciocínio, sendo o padrão o modo com raciocínio
    • Os nomes de modelo deepseek-chat e deepseek-reasoner serão descontinuados no futuro
    • Para compatibilidade, deepseek-chat corresponde ao modo sem raciocínio de deepseek-v4-flash, e deepseek-reasoner corresponde ao modo com raciocínio de deepseek-v4-flash
  • Endpoint e recursos

  • Limites de contexto e saída

    • O comprimento de contexto é de 1M
    • A saída máxima é de 384K

Preço por 1 milhão de tokens

Item DeepSeek-V4-Flash DeepSeek-V4-Pro
Tokens de entrada, acerto de cache $0.0028 $0.003625
Tokens de entrada, sem acerto de cache $0.14 $0.435
Tokens de saída $0.28 $0.87
Limite de concorrência 2500 500
  • Ajuste de desconto do DeepSeek-V4-Pro

    • O preço do DeepSeek-V4-Pro é exibido com desconto de 75%
    • O preço dos tokens de entrada com acerto de cache caiu de $0.0145 para $0.003625
    • O preço dos tokens de entrada sem acerto de cache caiu de $1.74 para $0.435
    • O preço dos tokens de saída caiu de $3.48 para $0.87
    • Mesmo após o fim da promoção de desconto de 75% em 31 de maio de 2026 às 15:59 UTC, o preço da API do DeepSeek-V4-Pro foi oficialmente ajustado para 1/4 do preço original
  • Redução do preço de acerto de cache

    • O preço de acerto de cache de entrada de todos os modelos foi reduzido para 1/10 do preço de lançamento
    • Esse ajuste de preço passa a valer a partir de 26 de abril de 2026 às 12:15 UTC
  • Limites de concorrência

    • O limite de concorrência do DeepSeek-V4-Flash é 2500
    • O limite de concorrência do DeepSeek-V4-Pro é 500
    • Mais detalhes sobre limites de concorrência podem ser consultados em Rate Limit & Isolation

1 comentários

 
GN⁺ 4 시간 전
Comentários do Hacker News
  • Se lançarem seu próprio agente de código, talvez eu comece a usar os modelos da DeepSeek como principal
    Parece que continuam fazendo as coisas “na direção certa”, como abrir o código dos modelos, publicar pesquisas e manter preços baixos

    • Dá para usar o V4 Pro no Claude Code 1
      Testei pessoalmente e fiquei impressionado

    • Também funciona muito bem com o OpenCode
      Nossa equipe bate com frequência no limite de 5 horas de outros serviços por assinatura, então ter o DeepSeek como backup é bem útil
      Coloquei só 50 dólares de crédito e parece que nunca vai acabar

      Ainda não substitui totalmente os modelos de ponta, mas como backup é excelente com certeza

    • Nem acho que a DeepSeek precise oferecer um agente de código
      Basta conectar o modelo a qualquer agente de código já existente
      Pessoalmente prefiro o Pi, mas cada um usa o que funcionar melhor

    • Comecei a testar os modelos chineses na minha base de código no começo desta semana
      Até agora vi mais classificação de issues, correção automática de bugs, análise de logs etc. do que programação conversacional; comparei DeepSeek, Kimi, GLM, Qwen e MiMO com GPT-5.5 high, tudo rodando no harness do Pi sem instalação

      Até agora, Kimi e MiMO parecem os mais promissores
      Ainda não testei de forma suficientemente rigorosa, mas minha impressão inicial é que, em tarefas comuns do dia a dia no trabalho, esses modelos talvez não estejam tão atrás quanto as pessoas imaginam

      Só que eles parecem mais do tipo “trabalhar duro em vez de trabalhar com inteligência”: chegam a resultados parecidos mais devagar e usando mais tokens, mas o preço é muito menor

    • Seria bom se os agentes de código fossem até certo ponto independentes do fornecedor do modelo
      Os provedores mudam qualidade, recursos e preço com frequência demais, e eu não queria ter que trocar de agente toda vez por causa disso

      Espero que a situação desacelere um pouco e se estabilize
      Não quer dizer que precise acontecer agora, mas seria bom chegar nesse ponto

  • Se você ainda não usou o DeepSeek V4, está perdendo muito
    É bom num nível difícil de acreditar por esse preço

    A cadeia de raciocínio do DeepSeek é realmente interessante de ler
    O OpenCode não mostra isso, mas, se você ler diretamente, pode se surpreender com o quanto esse modelo é subestimado

    Meu uso de modelos é bem pequeno, mas pago regularmente à DeepSeek de forma direta como agradecimento por abrir o código dos modelos e para apoiar o que vejo como um bem social no geral

    • É bom e barato, mas se você puxar assunto político, podem entrar em ação regras de censura
      Eu estava vendo o processo de raciocínio e, de repente, ele apagou tudo e sugeriu mudar de assunto sem dar explicação
      Em outra ocasião, soltou uma mensagem genérica sobre como a mídia deve servir ao povo

      Fiquei surpreso porque nenhum dos dois pedidos era sensível, ilegal ou subversivo
      Mas eram temas minimamente políticos, e isso já bastou
      A censura ocidental costuma ser mais sutil, então foi perturbador e estranhamente refrescante ao mesmo tempo

    • Sim, o modelo é realmente bom
      No trabalho eu uso Claude e, no pessoal, uso DeepSeek; é o único modelo que não está tentando ativamente me levar à falência

    • Gosto do V4 Pro para tarefas específicas, mas para programação o V4 Flash me impressionou bastante
      Ele é conciso, vai direto ao ponto, erra menos e é bem rápido

    • No CLI do opencode dá para ver os rastros de raciocínio
      Pode ser uma questão de configuração

    • No opencode você pode ativar e desativar a exibição do raciocínio

  • Esse preço é suspeitamente baixo
    O mesmo modelo hospedado por outros provedores custa muito mais 0
    Então ou a DeepSeek consegue hospedar isso muito mais barato que os outros, ou o modelo de negócios é diferente, e eu suspeito da segunda opção
    Principalmente porque a política de privacidade 1 diz que pode usar dados pessoais, incluindo “User Input”, para “melhorar e desenvolver o serviço, além de treinamento e aprimoramento tecnológico”

    • Pode ser uma pergunta boba, mas olhando no OpenRouter fiquei me perguntando se realmente não há provedores de DeepSeek fora dos EUA, Singapura e China
      Parece um produto bom demais para não haver oferta na Europa ou em outros provedores ocidentais
      Tenho certeza de que seria um salto muito maior do que o Mistral

      Quero testar esses modelos, mas prefiro evitar provedores que treinam com meus dados ou os armazenam além das exigências legais padrão

    • São vários fatores atuando juntos
      Em termos de eficiência da pilha de inferência, muitos provedores pegam um sglang / vllm / trtllm pronto e esperam pelo melhor, mas a equipe da DeepSeek é conhecida por levar os limites de otimização ao extremo

      sglang e vllm são ótimos softwares, mas, olhando para a atenção esparsa da DeepSeek (DSA), ela foi introduzida há 1,5 ano (https://arxiv.org/abs/2512.02556) e usada no DeepSeek 3.2, GLM 5 e DeepSeek V4
      Só agora os principais motores de inferência estão começando a adicionar otimizações lentamente: (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 etc.)
      Claro, o DS V4 adicionou otimizações de arquitetura de modelo por cima da DSA, e ainda vai levar tempo até que motores de inferência open source consigam aproveitar isso por completo

      Do ponto de vista de privacidade, existe a aposta de que as pessoas vão pagar mais por inferência hospedada fora da China
      Isso é especialmente verdadeiro porque a DeepSeek deixa claro, de forma transparente, que usa dados da API para melhorar o modelo

      Além disso, há fatores como escala (muito importante em MoE), confiabilidade e uma dependência corporativa mais suave

      Também há uma grande chance de conluio implícito
      Se você olhar os preços do GLM 5 e do GLM 5.1, o custo de execução dos dois é o mesmo, mas o 5.1 é um modelo muito melhor, e como a Z.AI aumentou o preço, os provedores também passaram a cobrar mais caro pelo 5.1

    • Eles estão claramente vendendo no prejuízo
      E por que não fariam isso?
      Ganhar participação de mercado operando no prejuízo não é uma patente exclusiva dos EUA

    • Talvez você não conheça o suficiente sobre o fundador da DeepSeek, Liang Wenfeng
      Ele também é fundador da High-Flyer Quant

  • Tenho ainda mais curiosidade com a parte de cache
    Está escrito que “em todos os modelos, o preço de acerto no cache de entrada foi reduzido para 1/10 do preço de lançamento, e esse ajuste passa a valer a partir de 2026/4/26 12:15 UTC”

    Não há data de término
    Hoje o DeepSeek V4 Flash custa 2% do preço de entrada, e no novo preço do V4 Pro isso dá 0,8%, algo extremamente baixo em relação aos concorrentes e suficiente para afetar a economia unitária, então achei que fosse temporário

    No caso do V4 Pro, o custo efetivo considerando cache fica em cerca de US$ 0,04 por milhão de tokens de entrada (segundo os dados do OpenRouter: https://openrouter.ai/deepseek/deepseek-v4-pro)
    É muito mais barato até do que modelos pequenos dos concorrentes

    • O cache KV do DeepSeek V4 é muito eficiente graças à estrutura de atenção esparsa fortemente comprimida
      O DeepSeek V3.2, que usa só DSA, é um modelo menor, mas numa janela de contexto de 1 milhão consome 10 vezes mais memória do que o DS V4 Pro

      Além disso, a API da DeepSeek tem uma taxa de acerto de cache muito boa
      Na mesma carga de trabalho, grandes provedores ocidentais de inferência que oferecem modelos de pesos abertos ficam em cerca de 50% de acerto no cache KV, enquanto a API da DS chega a cerca de 80%

    • O grande ponto do DeepSeek V4 é que o tamanho do cache KV caiu bastante

    • O Flash em si não é um modelo tão competitivo assim, e o preço dele também fica numa faixa parecida com a de outros modelos do mercado
      O concorrente mais direto do modelo Flash provavelmente seria algo assim

      GPT 5.4 mini

      Cache Read
      $0.075
      /M tokens

      Gemini 3 flash:

      Cache Read
      $0.05
      /M tokens

      Então não é nada especialmente mágico ou revolucionário

    • Sonnet:
      Cache Read
      $0.30

      Gemini 3.5 flash:
      Cache Read
      $0.15

  • O custo-benefício é absurdo
    Venho usando o GLM Coding Plan Max com GLM 5.1 há algum tempo e também testei o DeepSeek V4 Pro por umas 3 semanas; em tarefas complexas de programação, eu diria que ele é melhor que o GLM 5.1
    Usei 65 milhões de tokens e a conta deu 1,5 dólar nesse preço, é realmente muito barato

    • Parece que o DeepSeek usa muito mais tokens do que os outros modelos
  • Impressionante
    Com isso, o DeepSeek V4 Pro fica extremamente barato em relação aos outros modelos até dentro da mesma categoria
    Se olhar o preço por milhão de tokens de saída, fica assim

    DeepSeek V4 Pro: $0.87

    Qwen 3.7 Max: $7.50

    Grok 4.3: $2.50

    GLM 1.5: $3.08

    Opus 4.7: $25.00

    GPT-5.5: $30.00

    • Considerando também o custo de leitura de cache, na prática fica ainda mais barato
      Em fluxos de trabalho com agentes, esse custo pode ser dominante, e o custo de leitura de cache da DeepSeek é absurdamente baixo em comparação
      São $0.003626 por milhão de tokens, e o segundo mais barato da lista ainda passa de $0.2 por milhão
      É quase uma diferença de 100 vezes
    • Da próxima vez que alguém disser “pare de reclamar de limite de uso, sua assinatura está fazendo a empresa operar no prejuízo”, vou linkar este comentário
      Isso mostra que é possível fazer inferência de forma eficiente se não exigirem que deixem você queimar dinheiro sem restrições
    • E depois de assinar, eles também não pioram o modelo
      Se, dois meses depois da assinatura, piorarem o Opus a ponto de ele ficar abaixo do GPT-3 para cortar custos, de nada adianta o Opus ser bom
    • É GLM 5.1
  • Mesmo considerando o desconto do V4 Pro, o V4 Flash ainda entrega o melhor desempenho por dólar e, em tarefas com perfil de agente e uso intenso de ferramentas, o desempenho geral também é melhor
    O V4 Pro é mais inteligente em inferência de rodada única, mas a diferença de velocidade é grande
    Somando desempenho, custo e velocidade, o V4 Flash é de longe o melhor modelo flash para nós neste momento

    Os dados estão em https://gertlabs.com/rankings

    • No meu caso de uso, principalmente resumos muito grandes e extração de ideias, ele foi bem pior em comparação ao Pro
  • A arquitetura MLA deles reduz o cache KV em cerca de 5 a 13 vezes em relação à atenção padrão
    Então não se trata apenas de uma guerra de preços para ganhar participação de mercado; o custo real de executar a inferência é mesmo mais baixo

    • Isso também é um divisor de águas para inferência local
      Passa a ser possível ter contexto longo, inferência em lote e armazenamento em disco do cache KV em plataformas comuns de consumo
    • Sim
      É bem possível que esse desconto tenha sido um experimento de mercado pós-lançamento para verificar quão eficientemente o cache funciona na nova geração de modelos
  • Eu me preocupo mais com vazamento acidental de dados em modelos hospedados na China do que em modelos hospedados nos EUA
    Por exemplo, algo como um agente ler um arquivo env
    Será errado suspeitar que o governo chinês tem mais probabilidade do que o governo ou empresas dos EUA de escanear todas as conversas e guardar informações úteis?

    Hesitei até em escrever este comentário porque isso pode soar tendencioso ou xenófobo
    Gostaria que alguém me convencesse de que estou errado
    Alguém sabe que tipo de empresa está por trás da hospedagem do DeepSeek e se ela tem histórico de respeito à privacidade dos dados?

    • Não é uma preocupação irracional
      Por isso a maioria das empresas dos EUA prefere AWS Bedrock ou laboratórios de IA, e normalmente pede contratos sem retenção de dados
      Mas existe risco de vazamento em qualquer lugar onde esteja hospedado; o que muda, na minha visão, é a estrutura de incentivos

      Por exemplo, os laboratórios também escaneiam todas as conversas e treinam com dados que não estejam protegidos por contratos empresariais ZDR
      Autoridades policiais podem solicitar acesso a todos os dados de usuários com mandado válido ou em situações de emergência 1

      Se você quiser usar o DeepSeek V4 de forma privada, pode experimentar o Tinfoil (tinfoil.sh)
      Ele hospeda todos os modelos em enclaves de hardware seguro verificável, tornando a inferência privada de ponta a ponta
      Aviso: sou um dos cofundadores

      1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...

    • Basta usar por meio de algo como o Azure
      Eles hospedam o modelo completo e o oferecem nos EUA
      Deve haver outros provedores assim também

      Nós usamos dessa forma e funciona muito bem

    • Eu não ficaria surpreso se eles fizessem isso
      Também não me surpreenderia muito se modelos sediados nos EUA fizessem isso em nome de outros governos
      Não tenho grandes expectativas quando o assunto é confidencialidade de dados
      A Microsoft marca todas as caixinhas corporativas, mas o Azure também sofre violações de vez em quando

    • Eu diria que a possibilidade não é zero
      Pequim pode decidir a qualquer momento que o DeepSeek ficou poderoso demais ou virou um produto de exportação importante, e intervir
      Nem há garantia de que isso já não tenha acontecido

      Há muitos relatos de atores estrangeiros, não apenas da China, que já se infiltraram massivamente em redes críticas de vários setores dos EUA e estão esperando o momento certo para explorar isso
      Modelos de ponta são mais um vetor de ataque e, pensando bem, podem ser muito mais fáceis de explorar

      Na verdade, essa possibilidade existe com qualquer modelo hospedado em nuvem
      Seja porque a empresa que faz o modelo agiu intencionalmente, seja porque um agente malicioso explorou uma vulnerabilidade

    • Não sou importante o bastante para que alguém na China queira me atacar especificamente
      E a DeepSeek precisa manter um nível de confiança suficiente para que os usuários continuem usando a plataforma
      Se eles se comportarem como um keylogger atacando a carteira cripto de todo mundo, a confiança desaba

      Se eu estivesse fazendo algo que o governo chinês considerasse estrategicamente importante, claro que eu me preocuparia, mas não é o meu caso

      Na verdade, me preocupa mais que os bilionários da tecnologia deste país façam um perfilamento amplo da minha vida com LLMs e construam aqui algo muito mais distópico do que qualquer sistema real ou imaginário de crédito social da China
      As pessoas que tentam convencer você, cidadão americano, de que deveria temer o governo chinês talvez sejam justamente aquelas com quem você mais deveria se preocupar

  • Se alguém quiser conectar isso ao copilot, eu tinha feito um script de proxy para lidar com a conexão um tempo atrás, e pode ser útil: https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...