10 pontos por GN⁺ 2026-04-24 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de linguagem de grande porte baseado em Mixture-of-Experts (MoE) com suporte a contexto de 1M de tokens, lançado em duas versões: Pro (1.6T de parâmetros) e Flash (284B de parâmetros)
  • Arquitetura híbrida de atenção que combina Compressed Sparse Attention (CSA) e Heavily Compressed Attention (HCA), usando apenas 27% dos FLOPs de inferência e 10% do cache KV do DeepSeek-V3.2 na referência de 1 milhão de tokens
  • Após pré-treinamento com mais de 32T de tokens, aplica um pipeline de pós-treinamento em 2 etapas que treina especialistas por domínio de forma independente e depois os integra em um único modelo com on-policy distillation
  • O DeepSeek-V4-Pro-Max alcança o melhor desempenho open source em benchmarks de coding como LiveCodeBench 93.5, SWE Verified 80.6 e Codeforces 3206
  • Suporta três modos de inferência — Non-Think, Think High e Think Max — permitindo escolher entre tarefas cotidianas e raciocínio de dificuldade máxima conforme o uso

Visão geral do modelo e arquitetura

  • A série DeepSeek-V4 é composta por dois modelos: DeepSeek-V4-Pro (1.6T de parâmetros no total, 49B ativos) e DeepSeek-V4-Flash (284B de parâmetros no total, 13B ativos)
  • Ambos os modelos suportam comprimento de contexto de 1 milhão de tokens
  • Três principais upgrades de arquitetura e otimização:
    • Hybrid Attention Architecture: combina CSA e HCA para melhorar drasticamente a eficiência em contexto longo; na referência de 1 milhão de tokens, reduz os FLOPs de inferência por token para 27% e o cache KV para 10% em relação ao DeepSeek-V3.2
    • Manifold-Constrained Hyper-Connections (mHC): reforça as conexões residuais existentes para garantir ao mesmo tempo estabilidade na propagação de sinal entre camadas e maior capacidade de representação do modelo
    • Muon Optimizer: oferece convergência mais rápida e maior estabilidade no treinamento

Treinamento e pipeline de pós-treinamento

  • Pré-treinamento realizado com mais de 32T de tokens diversos e de alta qualidade
  • O pós-treinamento adota um paradigma de 2 etapas:
    • Etapa 1: treinamento independente de especialistas por domínio por meio de SFT e RL (com uso de GRPO)
    • Etapa 2: integração da especialização de vários domínios em um único modelo com on-policy distillation

Modos de inferência

  • Tanto o DeepSeek-V4-Pro quanto o DeepSeek-V4-Flash suportam três modos de inferência:
    • Non-Think: respostas rápidas e intuitivas, adequadas para trabalho cotidiano ou decisões de baixo risco
    • Think High: análise lógica deliberada, adequada para resolução de problemas complexos ou planejamento
    • Think Max: expande a capacidade de raciocínio até o limite, voltado à exploração das fronteiras de inferência do modelo

Desempenho em benchmarks — modelos Base

  • O DeepSeek-V4-Pro-Base supera o V3.2-Base e o V4-Flash-Base na maioria dos benchmarks:
    • MMLU: 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
    • MMLU-Pro: 73.5 (V3.2-Base 65.5)
    • Simple-QA Verified: 55.2 (V3.2-Base 28.3)
    • FACTS Parametric: 62.6 (V3.2-Base 27.1)
    • HumanEval: 76.8 (V3.2-Base 62.8)
    • LongBench-V2: 51.5 (V3.2-Base 40.2)
  • O V4-Flash-Base prova sua eficiência ao igualar ou superar em alguns benchmarks o V3.2-Base (37B ativos) usando apenas 13B de parâmetros ativos

Desempenho em benchmarks — modelos Instruct (V4-Pro-Max vs modelos de fronteira)

  • Destaque em benchmarks de coding:
    • LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
    • Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
    • Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
  • Em conhecimento e raciocínio:
    • SimpleQA-Verified 57.9 e Chinese-SimpleQA 84.4, superando a maioria dos modelos, mas abaixo do Gemini-3.1-Pro High (75.6, 85.9)
    • GPQA Diamond 90.1, MMLU-Pro 87.5
  • Tarefas de agente:
    • SWE Verified 80.6, MCPAtlas Public 73.6, entre os melhores resultados
    • Em Terminal Bench 2.0 (67.9) e HLE w/ tools (48.2), fica abaixo de alguns modelos closed source
  • O V4-Flash-Max alcança desempenho de raciocínio próximo ao da versão Pro quando recebe um thinking budget maior, embora fique um pouco atrás em tarefas puras de conhecimento e em workflows complexos de agente devido à diferença na escala de parâmetros

Comparação de desempenho por modo

  • Em todos os benchmarks, o V4-Pro Max registra o melhor desempenho
  • Há um padrão consistente de aumento de desempenho de Non-Think → Think High → Think Max:
    • Ex.: em GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
    • Ex.: em LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
  • O V4-Flash Max apresenta desempenho semelhante ou superior ao V4-Pro High em vários benchmarks

Download do modelo e precisão

  • Quatro modelos disponíveis: V4-Flash-Base, V4-Flash, V4-Pro-Base e V4-Pro
  • Os modelos Base usam precisão FP8 Mixed, e os modelos Instruct usam precisão FP4 + FP8 Mixed
    • Os parâmetros especialistas do MoE usam FP4, e a maior parte do restante usa FP8
  • Disponível para download no HuggingFace e no ModelScope

Template de chat e execução local

  • Não inclui template de chat no formato Jinja; em vez disso, a pasta encoding fornece scripts Python e casos de teste para codificação e parsing de mensagens em formato compatível com OpenAI
  • Parâmetros de sampling recomendados para implantação local: temperature 1.0, top_p 1.0
  • No modo Think Max, recomenda-se uma janela de contexto de pelo menos 384K tokens

Licença

  • Tanto os pesos do modelo quanto o repositório usam a MIT License

1 comentários

 
GN⁺ 2026-04-24
Opiniões no Hacker News
  • Para um modelo enorme como o v4 pro, o custo fica em torno de US$ 4 por 1 milhão de tokens de saída, então não sei se é mesmo verdade essa história de que “os laboratórios de ponta estão subsidiando a inferência em nível insano”
    Parece que o modelo por assinatura já daria lucro, e nem precisa falar do preço da API
    A entrada é US$ 1,74/M, e a saída US$ 3,48/M segundo o OpenRouter

    • Há também a explicação de que o preço está alto por causa da falta de placas de inferência da DeepSeek
      Dizem que, quando as placas de computação Ascend 950 saírem no segundo semestre deste ano, o preço do Pro deve cair bastante, segundo o comunicado à imprensa
    • Pelos custos operacionais, pode até estar no azul, mas talvez ainda não esteja se considerar o custo de capital com o cronograma de depreciação atual
      Ainda assim, até essas estimativas de custo vêm subindo mais do que se esperava ultimamente
    • Vejo de forma parecida
      O serviço por assinatura já dá lucro, e esse papo de subsídio no fim parece mais uma lógica para extrair margens maiores da API de clientes corporativos
    • Esse ponto é válido, mas ainda não existe fornecedor ocidental que chegue nessa faixa de preço
      Na China, a eletricidade também é mais barata
  • É estranhamente reconfortante que a documentação para desenvolvedores tenha saído antes do comunicado cheio de firulas

    • Sim, de fato, this is the way
    • Se for para chamar isso de open source, onde estão os dados e os scripts de treinamento?
      Pelo visto, depois editaram e tiraram a expressão "open source" do comentário principal
  • Já apareceu no OpenRouter
    O Pro custa US$ 1,74/m de entrada e US$ 3,48/m de saída, e o Flash custa US$ 0,14/m de entrada e US$ 0,28/m de saída

  • É bom ver open source de verdade saindo da China
    Sei que pode haver segundas intenções, mas ainda assim isso me agrada

    • As empresas americanas exigem verificação de identidade exagerada até para pagar pelo acesso ao modelo, armazenam e analisam os dados, usam isso para treinamento e ainda dizem abertamente que podem entregar tudo às autoridades se forem solicitadas
      As segundas intenções da China são uma suposição; do lado americano, isso já está escancarado
    • Este texto ajuda a entender por que os laboratórios chineses estão publicando seus modelos
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • É só open weights
  • Eles colocaram o modelo base Pro de 1.6T no Hugging Face
    É a primeira vez que vejo essa notação de modelo na casa dos T aqui

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    O modelo foi lançado e é bem impressionante
    Tem desempenho de fronteira, mas com custo muito menor, e me parece melhor que o Opus 4.6

    • Agora já nem sei se faz sentido continuar comparando modelos com o Opus
      Quem usa Opus vai continuar acreditando que ele é o melhor de qualquer jeito, e quem não usa não quer esse custo, esse lock-in e essas restrições
      Eu, por exemplo, continuo usando o modelo mais barato e rápido que resolve o trabalho, e no momento esse papel é do MiniMax M2.5
      Às vezes até testo modelos novos mais caros e o resultado é parecido, então fico pensando se não existe um certo exagero da indústria de IA inteira que faz tudo parecer avanço só em benchmark
    • Queria saber como ele se sai contra o Opus 4.7
      Passei a semana toda participando do hackathon do Anthropic Opus 4.7 e usei bastante o 4.7; ele gasta muito mais tokens que o 4.6, mas foi bem impressionante
    • Fico curioso se ele é realmente melhor que o Opus 4.6 ou se só foi bem otimizado para benchmarks
      Queria saber se alguém já testou codificação real com um harness de agente
      Se a capacidade de programação for melhor que Claude Code + Opus 4.6, eu troco na hora
    • Lá vamos nós de novo
      Todo dia aparece post de lançamento dizendo que algo é melhor que o Opus 4.6, mas nem a própria DeepSeek afirma que supera o Opus incluindo thinking
      O Dsv3 não era um modelo inflado para benchmark e se saía de forma consistente até em tarefas fora de benchmark; não era SoTA, mas era bom
      Este modelo parece semelhante
      Está logo abaixo do topo em desempenho, mas a diferença não é grande e o preço é muito menor
      O modelo grande está sendo servido pela própria ds por US$ 1,74 in / US$ 3,48 out / US$ 0,14 cache, então o valor entregue é excelente para o preço
      O modelo pequeno custa US$ 0,14 in / US$ 0,28 out / US$ 0,028 cache, então é praticamente barato demais para se preocupar, e pode virar um candidato realista para rodar em casa
      Se o desempenho vier junto, parece bem capaz de competir com as linhas haiku e gemini-flash
    • Fazendo umas contas por alto com os números de benchmark publicados, a diferença total em 20 métricas em que ambos têm pontuação é de 20,1 pontos percentuais
      A melhora média dá algo como 2%, e sinceramente não sei se isso é enorme ou irrelevante
      O Claude 4.6 foi quase 10 pp melhor em perguntas e respostas com contexto longo, especialmente nos corpuses do CorpusQA e nos diálogos multirrodada do MRCR
      Já o DSv4 ficou 14 pp acima no IMOAnswerBench e 12 pp acima no SimpleQA-Verified
  • Os pesos podem ser baixados aqui
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • Tenho muito interesse nessa área e também estou bastante envolvido nela, mas sinceramente já estou entrando em burnout tentando acompanhar tudo
    Parece que já passamos faz tempo do ponto em que, para acompanhar os avanços de IA, a própria IA precisa resumir os avanços de IA

    • Melhor nem tentar acompanhar tudo
      É como notícias: quando realmente surgir algo que você precise saber, alguém vai te avisar antes
    • Os principais atores quase não mudam
      Dá para acompanhar como se acompanha esporte, e se você aceitar que a liderança vai mudando, não fica tão pesado
    • Pela minha sensação, desde o GPT-4 está tudo meio parecido
      Sai modelo novo e a conversa é sempre que melhorou em alguns benchmarks, mas a experiência subjetiva de uso quase não muda
      Depois disso, quase nada realmente surpreendeu, e agora parece até uma fase estagnada que só o grupo mais entusiasta ainda acompanha
  • Mais do que o fato de a High Flyer ter copiado descaradamente a Anthropic para fazer isso, o que mais me incomoda é que o GAB aparentemente comprou tempo suficiente para eles colocarem dezenas de easter eggs no nível do xz ali dentro

  • Acabei de testar no Pi Coding agent via OpenRouter, e ele frequentemente não consegue usar direito as ferramentas de read e write
    Foi bem decepcionante, e queria saber se existe uma solução melhor do que prompts do tipo “não use chamadas diretas, use sempre as ferramentas fornecidas”

    • Como acabou de sair, talvez seja melhor esperar um pouco
      Provavelmente eles ainda não tiveram tempo suficiente para fazer testes prévios com o Pi