O DeepSeek-V4 apresentou inovações de arquitetura e um novo ponto de referência para os frontier labs. Na quarta semana de abril de 2026, em meio a grandes anúncios como GPT-5.5 e Google Cloud Next, o lançamento mais digno de atenção foi o do DeepSeek-V4. Surgido cerca de 1 ano e 4 meses após o R1, este modelo cresceu do porte de 600B do V3 para 1.6T, com um pequeno aumento também nos parâmetros ativados. Acima de tudo, três mudanças algorítmicas foram aplicadas ao mesmo tempo — Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) e o otimizador Muon — e o resultado foi organizado densamente em um artigo de cerca de 40 páginas. Kim Seong-hyeon e Noh Jeong-seok avaliaram que este relatório não é apenas uma exibição de desempenho, mas o registro de um ano de tentativas e erros dolorosos.
Principais mudanças de arquitetura
- Adoção plena de Sparse Attention: em vez do método anterior, que consultava todos os tokens anteriores, ele foi alterado para consultar apenas alguns tokens relevantes. A estrutura combina três componentes: sliding window attention, full attention sobre tokens comprimidos em 1/100 e Compressed Sparse Attention, que comprime em 1/4 e depois seleciona top-k com o Lightning Indexer.
- Aplicação de mHC: uma estrutura que estabiliza sobre uma manifold as Hyper-Connections, que ampliam o caminho das conexões residuais, núcleo do deep learning, relaxando suas restrições.
- Adoção do otimizador Muon: um otimizador que, após o Adam, passou a ser usado por modelos chineses quase como padrão de fato, elevando ao mesmo tempo a velocidade de treinamento e a eficiência de dados.
- Remoção do MLA: o modelo abandonou o MLA, quase um símbolo do DeepSeek, e migrou para um simples Multi-Query Attention.
Vantagens e destaques
- Queda acentuada no custo de contexto longo: mesmo sendo um modelo 2,5 a 3 vezes maior que o V3, o compute de operações por token caiu para cerca de 27% e a memória de KV cache para cerca de 10%.
- Treinamento de contexto longo já na fase de pré-treinamento: os primeiros 1T tokens foram treinados em 4K~16K e, depois disso, mais de 30T tokens foram treinados em 64K ou mais. Isso contrasta com a prática de expandir o contexto no pós-processamento.
- Profundidade da otimização de infraestrutura: foram incorporados de forma minuciosa itens como overlap entre comunicação e computação de MoE a partir de uma melhoria do Comet da ByteDance, megakernel levado ao ponto de acionar power throttling, contribuições para o TileLang, ampla otimização do kernel de batch invariance e compressão MXFP4 (4 bits) dos pesos dos especialistas.
- Liderança algorítmica: em um cenário em que as big techs dos EUA não divulgam suas arquiteturas, houve a avaliação de que, ao menos na área de pré-treinamento, o nível é comparável ou até superior em alguns pontos.
Desvantagens e limitações
- Instabilidade no treinamento: ao contrário da tendência recente de desenvolvedores de LLM afirmarem que o treinamento é muito estável, o DeepSeek-V4 revela com franqueza que enfrentou problemas de instabilidade em vários pontos. Foram usados até mecanismos difíceis de interpretar, como ajustes no gating do MoE, clamping e Anticipatory Routing, que faz o roteamento com pesos de passos anteriores.
- Dificuldade de reprodução: a conclusão comum de outras equipes na China foi que treinar Sparse Attention praticamente do zero é extremamente difícil. Mesmo com o sucesso do DeepSeek, é bem possível que outras equipes não consigam acompanhar com facilidade.
- Limitações no pós-treinamento: em comparação com o salto no pré-treinamento, o pós-treinamento parece ainda ter margem para avançar. É uma área com grande espaço para reforço nas etapas 4.1 e 4.2.
- Silêncio sobre os dados: o texto apenas menciona que foram preparados 32T tokens, mas praticamente não fala sobre a composição detalhada dos dados, como o uso ou não de dados sintéticos.
Diferenciais
- Divulgação transparente: ao contrário de outros frontier labs que escondem a arquitetura, este caso expõe com relativa franqueza a estrutura e os erros do processo.
- Projeto integrado desde a fase de pré-treinamento: chama atenção o fato de incorporar contexto longo, Sparse Attention e quantização FP4 ao pré-treinamento, em vez de tratá-los como pós-processamento.
- Diversificação de hardware: ao afirmar que usa em paralelo chips da NVIDIA e da Huawei, o projeto sugere que alternativas domésticas de semicondutores estão se consolidando na China.
Significado do ponto de vista do setor
- Mudança no mapa dos frontier labs chineses: equipes como DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3 e Xiaomi MiMo surgiram quase ao mesmo tempo na linha de frente, e há a visão de que, em pré-treinamento, já existem áreas em que a China está em nível equivalente ou até à frente dos EUA.
- Pós-treinamento como próximo campo de batalha: tudo indica que está próximo o momento em que uma quantidade de compute comparável à do pré-treinamento passará a ser investida em pós-treinamento, e a diferença criada aí pode se tornar o fator decisivo da próxima geração.
- Banalização das atualizações de modelos: com GPT-5.5, Claude Mythos, Spud e DeepSeek-V4 trocando seus modelos base em períodos parecidos, percebe-se uma tendência de as atualizações de modelos se tornarem tão rotineiras quanto atualizações do navegador Chrome.
Mais do que os indicadores de desempenho de um único modelo, este DeepSeek-V4 se aproxima de um registro de como uma equipe enfrentou de frente problemas difíceis ao longo de um ano. A tentativa de levar Sparse Attention desde a fase de pré-treinamento, o trabalho de infraestrutura que reduziu o custo de contexto longo a proporções de um dígito em escala 1.6T e os mecanismos não convencionais adotados enquanto se lidava com a instabilidade do treinamento têm potencial para se tornar uma nova base para futuros modelos de fronteira vindos da China. Ao mesmo tempo, os desafios restantes em pós-treinamento e dados continuam claros, e até que ponto as versões 4.1 e 4.2 conseguirão reduzir essa distância tende a ser um dos principais pontos de observação do próximo trimestre.
4 comentários
As pessoas dizem coisas desse tipo, que não conseguem confiar só porque é chinês, mas eu realmente sou grato à DeepSeek pelo menos por seguir pesquisando e abrindo seu trabalho, e até por divulgar os erros e tentativas no processo.
O Sr. No Seong-hoon → Sr. Kim Seong-hyeon.
Fiz a correção.
Obrigado. Precisa ser corrigido.