Resumo da leitura do artigo do DeepSeek-V4 - Noh Jeong-seok

(youtube.com)

9 pontos por ragingwind 1 일 전 | 4 comentários | Compartilhar no WhatsApp

O DeepSeek-V4 apresentou uma inovação de arquitetura e um novo ponto de referência para os labs de fronteira. Na quarta semana de abril de 2026, em meio a grandes anúncios como GPT-5.5 e Google Cloud Next, o acontecimento mais digno de nota foi a divulgação do DeepSeek-V4. Surgindo cerca de 1 ano e 4 meses após o R1, este modelo cresceu do porte de 600B do V3 para 1.6T, com um pequeno aumento também nos parâmetros ativados. Acima de tudo, três mudanças algorítmicas foram aplicadas ao mesmo tempo — Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) e o otimizador Muon — e o resultado foi condensado em cerca de 40 páginas de artigo. Noh Seong-hoon e Noh Jeong-seok avaliaram este relatório não como uma simples exibição de desempenho, mas como o registro de um ano de tentativa e erro dolorosos.

Principais mudanças de arquitetura

Adoção plena de Sparse Attention: em vez do método anterior, que consultava todos os tokens anteriores, passou a consultar apenas alguns tokens relevantes. A estrutura combina três elementos: sliding window attention, full attention sobre tokens comprimidos em 1/100 e Compressed Sparse Attention, que comprime em 1/4 e depois seleciona top-k com o Lightning Indexer.
Aplicação de mHC: uma estrutura que estabiliza sobre um manifold as Hyper-Connections, que ampliam o caminho das conexões residuais, núcleo do deep learning, relaxando suas restrições.
Adoção do otimizador Muon: um otimizador que, após o Adam, vem sendo usado por modelos chineses quase como padrão de fato, aumentando ao mesmo tempo a velocidade de treinamento e a eficiência de dados.
Remoção do MLA: o modelo abandonou o MLA, que era quase um símbolo do DeepSeek, e migrou para um simples Multi-Query Attention.

Vantagens e destaques

Queda acentuada do custo de long context: mesmo sendo um modelo 2,5 a 3 vezes maior que o V3, o compute de operações por token caiu para cerca de 27%, e a memória de KV cache para cerca de 10%.
Treinamento de long context desde a pré-treinamento: o primeiro 1T de tokens foi treinado em 4K~16K, e os mais de 30T tokens seguintes em 64K ou mais. Isso difere da prática comum de ampliar o contexto na etapa posterior.
Profundidade na otimização de infraestrutura: foram incorporados de forma minuciosa o overlap de comunicação e computação de MoE com melhorias sobre o Comet da ByteDance, megakernels levados ao limite a ponto de causar power throttling, contribuições ao TileLang, ampla otimização de kernels de batch invariance e compressão MXFP4 (4 bits) dos pesos dos especialistas.
Liderança algorítmica: com as big techs dos EUA sem divulgar suas arquiteturas, surgiu a avaliação de que, ao menos em pré-treinamento, o nível é equivalente ou até superior em alguns pontos.

Desvantagens e limitações

Instabilidade no treinamento: ao contrário da tendência recente de desenvolvedores de LLM dizerem que o treinamento é muito estável, o DeepSeek-V4 mostra com franqueza que enfrentou problemas de instabilidade em vários pontos. Foram usados recursos difíceis como ajustes no gating de MoE, clamping e até Anticipatory Routing, que faz o roteamento com pesos de etapas anteriores.
Dificuldade de reprodução: a conclusão comum de outras equipes na China é que treinar Sparse Attention praticamente desde o zero é muito difícil. Mesmo com o sucesso do DeepSeek, é provável que outras equipes não consigam acompanhar com facilidade.
Limitações no pós-treinamento: em comparação com o salto no pré-treinamento, o pós-treinamento parece ainda ter margem para melhorias. É uma área com bastante espaço para reforço nas etapas 4.1 e 4.2.
Silêncio sobre os dados: o artigo menciona apenas que preparou 32T tokens, mas quase não fala da composição detalhada dos dados, como o uso ou não de dados sintéticos.

Diferenciais

Divulgação transparente: diferentemente de outros labs de fronteira que escondem a arquitetura, aqui a estrutura e as tentativas e erros são apresentadas com relativa honestidade.
Projeto integrado na fase de pré-treinamento: chama atenção o fato de long context, Sparse Attention e quantização FP4 terem sido incorporados ao pré-treinamento, e não deixados para etapas posteriores.
Diversificação de hardware: ao afirmar que usa chips da NVIDIA junto com chips da Huawei, o texto sugere que alternativas domésticas de semicondutores estão se consolidando na China.

Significado sob a ótica do setor

Mudança no mapa dos labs de fronteira chineses: surgiu a visão de que quase cinco equipes — DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3 e Xiaomi MiMo — apareceram simultaneamente na linha de frente, e que, em pré-treinamento, já existem áreas em que se igualam ou superam parcialmente os EUA.
O pós-treinamento como próximo campo de batalha: tudo indica que está próximo o momento em que um volume de compute comparável ao do pré-treinamento será investido em pós-treinamento, e a diferença nessa etapa pode se tornar o fator decisivo da próxima geração.
Normalização das atualizações de modelos: com GPT-5.5, Claude Mythos, Spud e DeepSeek-V4 substituindo seus modelos-base em épocas parecidas, percebe-se uma tendência de as atualizações de modelos se tornarem tão banais quanto atualizações do navegador Chrome.

Este DeepSeek-V4 se parece menos com um registro dos indicadores de desempenho de um único modelo e mais com a documentação de como uma equipe enfrentou e superou de frente, ao longo de um ano, problemas extremamente difíceis. A tentativa de levar Sparse Attention desde a fase de pré-treinamento, o trabalho de infraestrutura que reduziu o custo de long context a proporções de um dígito em escala 1.6T e os mecanismos atípicos introduzidos no combate à instabilidade do treinamento podem se tornar a nova base dos modelos de fronteira vindos da China. Ao mesmo tempo, os desafios restantes em pós-treinamento e dados continuam claros, de modo que até onde as versões 4.1 e 4.2 conseguirão reduzir essa lacuna deve ser um dos principais pontos de atenção do próximo trimestre.

4 comentários

winkagn 1 시간 전

As pessoas dizem coisas desse tipo, que não conseguem confiar só porque é chinês, mas eu realmente sou grato à DeepSeek pelo menos por seguir pesquisando e abrindo seu trabalho, e até por divulgar os erros e tentativas no processo.

junghwanlee 23 시간 전

O Sr. No Seong-hoon → Sr. Kim Seong-hyeon.

xguru 22 시간 전

Fiz a correção.

ragingwind 22 시간 전

Obrigado. Precisa ser corrigido.

Resumo da leitura do artigo do DeepSeek-V4 - Noh Jeong-seok

Leituras relacionadas

4 comentários