7 pontos por GN⁺ 2026-05-03 | 2 comentários | Compartilhar no WhatsApp
  • A DeepSeek revelou os modelos em prévia DeepSeek-V4-Pro e DeepSeek-V4-Flash, os primeiros da série V4; ambos são modelos Mixture of Experts com suporte a contexto de 1 milhão de tokens e oferecidos sob licença MIT
  • O DeepSeek-V4-Pro é um modelo com 1.6T de parâmetros no total e 49B de parâmetros ativos, sendo aparentemente o maior modelo de pesos abertos até agora, acima de Kimi K2.6, GLM-5.1 e DeepSeek V3.2
  • O principal diferencial do DeepSeek V4 é o preço: o Flash custa $0.14 por 1 milhão de tokens de entrada e $0.28 de saída, enquanto o Pro custa $1.74 de entrada e $3.48 de saída, abaixo dos modelos pequenos e grandes comparáveis
  • O preço baixo está ligado à eficiência em contexto longo: com contexto de 1 milhão de tokens, o Pro cai para 27% dos FLOPs por token único e 10% do cache KV em relação ao DeepSeek-V3.2, enquanto o Flash cai para 10% dos FLOPs e 7% do cache KV
  • Nos benchmarks próprios, o DeepSeek-V4-Pro consegue competir com modelos de fronteira, mas fica um pouco abaixo de GPT-5.4 e Gemini-3.1-Pro, mostrando uma trajetória de desenvolvimento cerca de 3 a 6 meses atrás dos modelos de fronteira mais avançados

Lançamento dos modelos e especificações básicas

  • Depois de V3.2 e V3.2 Speciale em dezembro de 2025, a DeepSeek lançou DeepSeek-V4-Pro e DeepSeek-V4-Flash, dois modelos em prévia que inauguram a série V4
  • Ambos são modelos Mixture of Experts com suporte a contexto de 1 milhão de tokens e usam a licença MIT padrão
  • O DeepSeek-V4-Pro tem 1.6T de parâmetros no total e 49B de parâmetros ativos, enquanto o DeepSeek-V4-Flash tem 284B de parâmetros no total e 13B de parâmetros ativos
  • O DeepSeek-V4-Pro é maior que os 1.1T do Kimi K2.6, os 754B do GLM-5.1 e os 685B do DeepSeek V3.2, parecendo ser o novo maior modelo de pesos abertos
  • No Hugging Face, o tamanho do modelo é de 865GB para o Pro e 160GB para o Flash; espera-se que uma versão levemente quantizada do Flash possa rodar em um MacBook Pro M5 com 128GB
  • O modelo Pro também pode talvez rodar na mesma máquina, se for possível fazer streaming do disco apenas dos especialistas (experts) ativos necessários
  • Teste rápido via OpenRouter

Publicidade

Preço, eficiência e posicionamento de desempenho

  • O ponto mais chamativo do DeepSeek V4 é o preço e, segundo a página de preços da DeepSeek, o Flash custa $0.14 por 1 milhão de tokens de entrada e $0.28 por 1 milhão de tokens de saída
  • O Pro custa $1.74 por 1 milhão de tokens de entrada e $3.48 por 1 milhão de tokens de saída
  • Na tabela comparativa, o DeepSeek V4 Flash fica abaixo do GPT-5.4 Nano, com $0.20 de entrada e $1.25 de saída, e do Gemini 3.1 Flash-Lite, com $0.25 de entrada e $1.50 de saída, sendo o mais barato entre os modelos pequenos
  • O DeepSeek V4 Pro fica abaixo do Gemini 3.1 Pro, com $2 de entrada e $12 de saída, do GPT-5.4, com $2.50 de entrada e $15 de saída, do Claude Sonnet 4.6, com $3 de entrada e $15 de saída, do Claude Opus 4.7, com $5 de entrada e $25 de saída, e do GPT-5.5, com $5 de entrada e $30 de saída, sendo o mais barato entre os grandes modelos de fronteira
  • A eficiência sustenta o preço baixo

    • O artigo da DeepSeek afirma que este lançamento teve forte foco na eficiência de prompts com contexto longo
    • Em contexto de 1 milhão de tokens, o DeepSeek-V4-Pro fica em 27% dos FLOPs por token único e 10% do tamanho do cache KV em relação ao DeepSeek-V3.2
    • Nas mesmas condições, o DeepSeek-V4-Flash cai para 10% dos FLOPs por token único e 7% do tamanho do cache KV em relação ao DeepSeek-V3.2
  • Nos benchmarks, perto da fronteira, mas ainda atrás do topo

    • Os benchmarks divulgados pela própria DeepSeek indicam que o modelo Pro consegue competir com outros modelos de fronteira
    • Segundo o artigo, o DeepSeek-V4-Pro-Max com extensão de tokens de raciocínio supera GPT-5.2 e Gemini-3.0-Pro em benchmarks padrão de raciocínio
    • Ainda assim, fica um pouco abaixo de GPT-5.4 e Gemini-3.1-Pro, mostrando uma trajetória de desenvolvimento cerca de 3 a 6 meses atrás dos modelos de fronteira de última geração
    • Há expectativa pela publicação das versões quantizadas da Unsloth em huggingface.co/unsloth/models, e ainda resta ver quão bem o modelo Flash vai rodar em máquinas locais

2 comentários

 
emptybynature 2026-05-09

No geral, é ótimo ser realmente barato, mas o problema é que é muito lento.... algo que no codex levaria 5 minutos, esse aqui fica pensando por 20 minutos. Então, em vez de usar para implementação, estou usando mais para revisão de código, e nisso ele se sai bem, então estou satisfeito

 
GN⁺ 2026-05-03
Comentários do Hacker News
  • Para mim, o maior diferencial é que o DeepSeek simplesmente faz o que você pede. Recentemente tentei usar tanto o GPT quanto o Claude para engenharia reversa, e os dois recusaram; ainda por cima, até recebi um aviso na minha conta da OpenAI

    • Infelizmente, o nível de alucinação é absurdamente alto, o que expõe o pior lado dos grandes modelos de linguagem
      Deepseek v4 pro 94%
      Deepseek v4 flash - 96%
      https://artificialanalysis.ai/evaluations/omniscience?models...
    • Na minha experiência, IDA Pro e GLM 5.1 funcionaram muito bem juntos, com o DeepSeek v4 pro ficando em um segundo lugar por pouco, enquanto o Kimi simplesmente recusou. O Claude até consegue fazer engenharia reversa se você empurrá-lo para um modo meio herói/salvador e depois for virando aos poucos para o lado red team, mas ele tropeça fácil
    • Na empresa temos uma conta enterprise do Cursor, então consigo testar todos os modelos mais populares. Naturalmente, eu estava investigando um problema no nosso código, onde temos o código-fonte, usando o Composer 2, e mesmo assim ele se recusou a ativar uma flag de debug que contorna a checagem de licença
      Fiquei realmente irritado, parecia aquele meme antigo do Patrick do SpongeBob. Não entendo por que querem transformar modelos em agentes da lei. O que é ilegal continua sendo ilegal, e já existem profissionais que lidam com crime. O Google não precisa ser árbitro da verdade e da justiça. Já é difícil o suficiente cobrar responsabilidade das autoridades, mas pelo menos elas trabalham para nós
    • A parte de “até recebi um aviso na minha conta da OpenAI” é completamente estranha e distópica, porque é software ameaçando o usuário com base no resultado
      Pessoal dev, que tipo de mundo a gente construiu? Isso é insano. É como imaginar um martelo dizendo: “não me use em parafusos, só em pregos. Se fizer isso de novo, vou me autodestruir”. Queria muito que parassem de fazer software assim
    • Esse negócio de “até recebi um aviso na minha conta da OpenAI” muitas vezes parece assustador. Para uma pessoa comum, sem seguidores, não existe nenhum processo real de recurso, e ela pode acabar excluída de ferramentas básicas
      Imagine a OpenAI comprando 20 empresas e, por ter cruzado uma linha vaga uma vez no passado, você não poder mais usar Figma, Next e afins. Não é só a OpenAI; todo o ecossistema está difícil demais de interpretar
      Perguntei ao Gemini sobre uma citação de Catch-22, e ele continuava interrompendo no meio da geração dizendo que não podia falar sobre aquilo, apesar de não haver nada violento nem sexual. O livro até tem esse tipo de conteúdo, mas isso já dá a sensação de que a conta inteira do workspace poderia perder pontos só por esse motivo
      Idealmente, o futuro deveria ser local, eu sei, mas pensando em custo real e consumo de energia nos próximos anos, não sei o quanto isso é realista para a maioria das pessoas. Se você estiver nesse ecossistema, talvez os processadores M* sejam uma exceção
  • O DeepSeek v4 Pro, em termos de personalidade, pareceu Claude Opus 4.6, e o custo foi impressionante
    Pedi para ele focar em um único endpoint dentro de uma codebase TypeScript bem grande, analisando profundamente API, DTO, serviço e modelos de banco por camada, entendendo completamente os tipos relacionados e sem introduzir tipos temporários
    Ele resumiu de forma bem curta, mas essencial, quais tipos eram introduzidos e quais deles eram retornados, e depois pedi que simplificasse tudo
    Os dois prompts provavelmente passaram por muitos arquivos, mas o custo total na versão Pro foi de $0.09. Com Claude Opus, mesmo pela minha experiência antes do aumento de preço, esses dois prompts facilmente teriam queimado algo como $9~$13, sem um ganho tão grande assim
    Só para constar, usei a API do DeepSeek diretamente, não o OpenRouter. O próprio OpenRouter estava sofrendo limitação de velocidade do lado do DeepSeek

    • Estou tendo a mesma experiência. Tarefas do tipo “analise este módulo inteiro e siga com precisão meticulosa o meu style guide preferido” eram caras demais para justificar gastar alguns dólares em modelos de ponta. É ótimo poder jogar o DeepSeek Flash em tarefas burras, desnecessárias ou altamente especulativas sem se preocupar com custo
    • Boa parte da ineficiência vem do modelo ficar cutucando aleatoriamente coisas aqui e ali e rodando grep sem parar, e eu vejo isso como um problema do harness
      Então criei um MCP baseado em Prolog que analisa o código como um grafo com tree-sitter e permite ao modelo fazer perguntas como “quais funções se conectam a esta função?”. Para ver o que um endpoint específico faz, dá para seguir todo o subgrafo de chamadas de forma trivial e previsível
      https://github.com/yogthos/chiasmus
    • Fiquei na dúvida se “teria queimado algo como $9~$13 sem muito ganho” quer dizer que não haveria muito ganho em comparação com o DeepSeek v4 Pro de 9 centavos, ou se quer dizer que nenhum dos dois trouxe tanto ganho assim
    • Mesmo levando em conta que está sendo cobrado com 75% de desconto, ainda assim sai muito mais barato
    • Fiquei curioso sobre como você usou. Foi via OpenRouter ou direto pela API do provedor?
  • Relacionado a isso, existe uma demo ao vivo rodando o DeepSeek v4 Flash em um MacBook de 128GB. O vídeo é em italiano e tem legendas em inglês
    https://www.youtube.com/watch?v=todMmp6AGCE

  • Conectei no vscode copilot e testei tanto o flash quanto o pro. Para pequenas provas de conceito, o flash foi suficiente, bem rápido e realmente barato
    Travou algumas vezes, o que pode ter sido problema de latência, mas ainda assim os resultados foram bons. Usei o pro para tarefas pesadas e planejamento, e ele foi excelente
    Paguei cerca de 10 centavos por uma pequena prova de conceito, e funcionou exatamente como eu havia pedido no prompt. Para mim, é uma alternativa real depois de cancelar o GitHub Copilot no fim deste mês

  • O custo é menor que o dos modelos de ponta, mas há dois fatores que fazem o DS4 Pro e o K2.6 não serem tão baratos quanto parecem à primeira vista
    O DS4 Pro está com desconto na API oficial, e isso às vezes é ignorado ou confundido nas discussões. O Simon usou o preço cheio na comparação, então aqui isso não é um problema
    O outro problema é que DS4 Pro e K2.6 muitas vezes usam muito mais tokens de raciocínio do que modelos de ponta. Nos meus testes, em alguns casos patológicos, eles consumiram tantos tokens que o custo da requisição ficou igual ao dos modelos de ponta. Para ser justo, uso DS e Kimi por provedores terceirizados, então também pode ser questão de configuração deles
    Mas, olhando a página de modelos do Artificial Analysis, nos benchmarks de inteligência o DSv4 Pro usou 190M tokens e o K2.6, 170M, enquanto o GPT 5.5 high usou só 45M
    Em “Intelligence vs. Cost to Run Artificial Analysis Intelligence Index”, recomendo olhar na interface para “Intelligence vs Cost”. Os modelos open source continuam mais baratos, mas não tanto quanto se esperaria olhando apenas o preço por token
    [0] https://artificialanalysis.ai/models/deepseek-v4-pro
    [1] https://artificialanalysis.ai/models/kimi-k2-6
    [2] https://artificialanalysis.ai/models/gpt-5-5-high

    • Isso está muito errado, e o DS4 é realmente barato. Primeiro, eu recomendaria ler o paper de lançamento
      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
      Eles introduziram HCA e mCH, métodos bem novos para melhorar eficiência de contexto longo e atenção. Em comparação com o v3.2, precisam de apenas 27% dos FLOPs para inferência e só 10% para cache KV. Isso significa que dá para servir mais de 3 vezes mais com os mesmos recursos computacionais e usando apenas 30% do cache KV anterior
      Além disso, este lançamento ainda é PREVIEW. A DeepSeek é um verdadeiro laboratório de pesquisa aberto, e a cada lançamento não só produz bastante coisa como também publica e compartilha. Eu estou rodando isso localmente
      Para falar o quanto é “barato”, no v3.2, em contexto de 256k, a memória GPU acabava e transbordava para a memória do sistema, e mesmo assim eu estava satisfeito com algo como 7 mil tokens por segundo. Agora consigo colocar todo o contexto de 1 milhão de tokens 100% dentro da memória da GPU, rodando mais de 2 vezes mais rápido e com resultados melhores
      Isso é realmente barato. A Moonshot deixou claro que está sem GPU, e é por isso. Se eles tivessem capacidade de GPU como nos EUA e tivessem subsidiado o modelo como aqui, teriam distribuído de graça
    • Isso pode até acontecer, mas não foi a minha experiência. Passei o dia inteiro em um refactor grande, várias rodadas de ida e volta, milhares de linhas de código alteradas, revisão, investigação e até trabalho paralelo com vários subagentes, e o custo total foi de $0.95
      Quando tentei fazer isso antigamente com o Opus 4.6, eu já tinha queimado todo o orçamento de $10 que eu tinha definido antes mesmo de ele voltar do primeiro prompt
      Mesmo que fosse um preço fortemente descontado, ainda teria ficado na casa de um dígito de dólares para uma solução completa, enquanto o Opus teria custado dois dígitos e entregue exatamente nada
    • Segundo o Artificial Analysis, o Grok 4.3 é mais rápido, mais inteligente, mais barato e usa menos tokens que o DS4. Então por que ninguém está falando do Grok?
      1. https://artificialanalysis.ai/models/grok-4-3
  • O V4 claramente subiu de patamar em relação ao V3.2 no nosso benchmark multilíngue
    Mas há duas observações importantes. Ao fazer inferência via OpenRouter, a velocidade (TPS) foi muito baixa e às vezes bem instável. Acabei de verificar e, em todos os provedores disponíveis, está em 10~30 TPS, o que não é muito para um modelo que “pensa” bastante como o DeepSeek
    A API oficial do DeepSeek não garante privacidade de dados nem para usuários pagos
    Via Azure AI Foundry, talvez nenhum desses dois pontos seja problema. Pelo menos o segundo, até onde eu sei; ainda não testei
    De qualquer forma, é bom ver surgirem mais modelos open weight que conseguem competir em algum nível com o estado da arte atual

  • A API oficial do DeepSeek fica muito mais barata que os modelos de ponta quando usada em sessões longas na mesma codebase, porque a taxa de acerto de cache passa de 99%. Há um exemplo de sessão de 200M tokens no claude code

    • Pode ser uma pergunta boba, mas para garantir o prefixo certo que bata com o cache em uma nova sessão, é preciso ler os arquivos na mesma ordem?
  • É surpreendente como as pessoas, especialmente quando usam direto a API do desenvolvedor do modelo, simplesmente não ligam para o fato de que esses modelos treinam publicamente com os seus dados
    Quando acontece algo como “o GitHub agora coloca automaticamente o código de todo mundo no opt-in para treinar modelo”, aparecem centenas de comentários, com toda razão, revoltados com isso; mas quando o assunto é usar modelos chineses via OpenRouter, esse ponto quase não aparece mais. Dá para explicar dizendo “são pessoas diferentes”, mas a diferença é tão gritante que parece improvável que seja só isso

    • O bom dos modelos open weight é que você pode usar livremente provedores alternativos que não enviam seus dados para os criadores do modelo original. Por exemplo, no OpenRouter aparecem 6 provedores alternativos para o DeepSeek V4 Pro
    • Pessoalmente, não me importo em ajudá-los, desde que eles publiquem o modelo em vez de mantê-lo fechado. E também não confio em configuração de provedor dizendo que não vai usar os dados para treinamento
    • A maioria dos modelos open weight permite usar provedores com retenção zero de dados e sem treinamento. Dá para ver isso, por exemplo, no OpenRouter e no OpenCode Go/Zen
      Essa é uma das grandes vantagens dos open weight. Nem a China nem os EUA ficam com os meus dados
    • Porque eles estão distribuindo isso de graça e a API também tem preço muito bom. Não é difícil de entender. Dá uma sensação de Robin Hood roubando nosso imposto de dados e devolvendo para a gente
    • Para mim, treinar com meu código open source tudo bem. O código nem é grande coisa, mas esse não é o ponto, e de qualquer forma eles estão oferecendo o serviço de graça. Mas, se eu estivesse pagando custo enterprise e ainda assim usassem para treinamento, aí eu ficaria realmente furioso. Acho que a maioria dos programadores pensa assim também
  • Isso me dá esperança de que, quando esse circo de subsídios acabar e tudo passar a ser puramente por uso, ainda assim não fique totalmente inacessível para pessoas comuns que não têm um orçamento de $200 por mês

    • Há dois motivos para eu ser otimista de que não vai acontecer uma grande rasteira súbita na relação preço/desempenho em comparação com hoje
      Um é que continuam descobrindo formas de enfiar mais inteligência em modelos menores, então o mesmo hardware passa a oferecer mais capacidade de modelo com o tempo
      O outro é que o hardware continua melhorando e a oferta deve alcançar a demanda, então as especificações de hardware que $1 compra vão melhorar com o tempo
      Espero que um dia a gente olhe para o modelo atual de “acessar IA via API de provedor” do mesmo jeito que hoje olhamos para a época em que “todo mundo se conectava ao mainframe da empresa”
    • Não me surpreenderia se, quando a poeira baixar, o uso interativo pessoal ficasse inviável por menos de $200. Quando eu tento modelar o custo de servir essas coisas, ele não bate bem com os relatórios públicos. Nem mesmo nos cenários mais pessimistas
  • Usei o v4 pro nos últimos dias e, em qualidade, no geral ele pareceu próximo do OpenAI 5.4 ou do Opus 4.6. Não usei o 4.7
    Para deixar claro, não estou fazendo nada de ponta. Usei mais para desenvolvimento frontend, e como não sou muito bom nisso, eu só precisava de protótipos plausíveis
    Para o meu objetivo, é um modelo totalmente aceitável e o preço também é razoável. Ainda assim, estou realmente ansioso para sair um modelo aberto pequeno o suficiente para rodar localmente. Não gosto de depender da máquina dos outros e ver meus dados todos indo embora no processo

    • Usando inferência com a Tinfoil, dá para usar modelos na nuvem com uma privacidade parecida com a de rodar localmente: https://tinfoil.sh/inference
      Para contextualizar, sou cofundador. A abordagem é rodar o modelo dentro de um enclave seguro e verificar se o código open source rodando dentro do enclave corresponde à atestação de runtime. Usamos NVIDIA confidential computing
      A documentação explica o processo de verificação: https://docs.tinfoil.sh/verification/verification-in-tinfoil
    • Obrigado por compartilhar sua experiência de uso; eu também estava pensando em testar. Que provedor você está usando para inferência? Opencode ou a API do DeepSeek?