- DeepSeek-V3.2 é um modelo de linguagem de grande escala de código aberto que combina eficiência computacional e desempenho de inferência e de agente.
- A nova estrutura DeepSeek Sparse Attention (DSA) mantém o desempenho em contextos longos e reduz bastante a complexidade computacional.
- Por meio de um framework de aprendizado por reforço (RL) escalável, atinge desempenho de inferência no nível do GPT-5, enquanto a versão de alto desempenho obtém capacidade de inferência equivalente ao Gemini-3.0-Pro.
- Com um pipeline de síntese de tarefas de agente em grande escala, gera 1.800 ambientes e 85.000 prompts, melhorando a generalização e a capacidade de execução de comandos em ambientes de interação complexos.
- Os modelos de código aberto estão aproximando a lacuna em relação aos modelos proprietários e se consolidando como uma alternativa custo-efetiva.
Visão geral do DeepSeek-V3.2
- O DeepSeek-V3.2 foi projetado para superar os limites de desempenho de inferência e agente dos LLMs de código aberto.
- É composto por três tecnologias centrais: DeepSeek Sparse Attention(DSA), framework de RL escalável e pipeline de síntese de tarefas de agente em grande escala.
- A versão de alto desempenho DeepSeek-V3.2-Speciale supera o GPT-5 e possui capacidade de inferência equivalente à do Gemini-3.0-Pro.
- Em 2025, registrou desempenho de nível de medalha de ouro em competições como a International Mathematical Olympiad (IMO) e a International Olympiad in Informatics (IOI).
- Ao mesmo tempo, melhora a eficiência e o desempenho dos modelos de código aberto e reduz a lacuna de desempenho com os modelos proprietários.
Limitações dos modelos de código aberto e direção de melhoria
- Foram apontadas três limitações que fazem os LLMs de código aberto ficarem atrás dos modelos proprietários.
- Ineficiência da estrutura de atenção básica, com alta carga computacional no processamento de sequências longas.
- Escassez de recursos computacionais na etapa de pós-treinamento (post-training), causando queda de desempenho em tarefas difíceis.
- Falta de generalização e capacidade de execução de comandos em agentes, que impõe limites em aplicações práticas.
- O DeepSeek-V3.2 busca resolver isso com uma estrutura de atenção eficiente, aprendizado por reforço (RL) escalável e pipeline integrada de inferência com uso de ferramentas.
DeepSeek Sparse Attention (DSA)
- A DSA é composta pelo lightning indexer e por um mecanismo de seleção de tokens refinado.
- O lightning indexer funciona com precisão FP8 e determina os principais k pares de chave-valor que cada token de consulta deve selecionar.
- Com isso, reduz a complexidade de O(L²) para O(Lk), permitindo processamento eficiente mesmo em contextos longos.
- Implementação baseada em MLA, com manutenção da compatibilidade com o DeepSeek-V3.1-Terminus existente.
- É realizado um processo de treinamento contínuo em duas etapas.
- Inicialização do indexer na etapa Dense Warm-up.
- Na etapa Sparse Training, adaptação do modelo inteiro ao padrão DSA com treinamento em 943.7B tokens.
Avaliação de desempenho e eficiência
- O DeepSeek-V3.2-Exp melhora substancialmente a eficiência no processamento de contexto longo e mantém resultados equivalentes aos do DeepSeek-V3.1-Terminus sem perda de desempenho.
- Em benchmarks independentes como AA-LCR3 e Fiction.liveBench, registra pontuações de inferência melhores que as versões anteriores.
- Em um cluster de GPUs H800, o custo por token caiu bastante, com ganho de velocidade fim a fim.
Pós-treinamento (Post-Training) e estrutura de aprendizado por reforço
- Combina Specialist Distillation (Distilação especializada) e Mixed RL (RL híbrido).
- Treina por RL 6 modelos especialistas em matemática, programação, raciocínio lógico, agente geral, agente de código e agente de busca.
- Destila os dados de cada especialista para gerar o checkpoint final.
- Usa o algoritmo Group Relative Policy Optimization (GRPO) para integrar treinamento de inferência, agente e alinhamento.
- Combina modelo de recompensa, penalidade de tamanho, recompensa de consistência linguística, entre outros.
- O DeepSeek-V3.2-Speciale também aplica dados e esquema de recompensa do DeepSeekMath-V2 para fortalecer a capacidade de prova matemática.
Técnicas de estabilização do RL (Scaling GRPO)
- Com a Unbiased KL Estimate (estimativa KL sem viés), obtém convergência estável.
- Resolve o problema de gradiente instável do estimador K3 anterior.
- Com Off-Policy Sequence Masking, mascara amostras negativas com grande divergência de política, aumentando a estabilidade do treinamento.
- O Keep Routing mantém a consistência de roteamento do modelo Mixture-of-Experts.
- O Keep Sampling Mask evita divergência de espaço de ações entre políticas durante
top-p e top-k sampling.
Raciocínio com uso de ferramentas (Thinking in Tool-Use)
- Introduz Thinking Context Management para evitar reprocessamento de inferência desnecessário durante chamadas de ferramenta.
- O histórico de inferência anterior é removido apenas quando uma nova mensagem do usuário é adicionada.
- O histórico de chamadas de ferramenta é mantido para uma gestão de contexto eficiente.
- Na fase Cold-Start, combina dados de inferência e dados de agente.
- Os dados de inferência especificam a trilha de raciocínio com a tag
<think></think>.
- Cria uma base de treinamento integrada com prompt de sistema incluindo chamadas de ferramentas.
- Por meio da síntese em grande escala de tarefas de agente, gera 1.800 ambientes e 85.000 prompts.
- Executa treinamento RL em ambiente real com API de busca web, ferramentas de execução de código e Jupyter Notebook.
- O Search Agent automatiza geração de perguntas, validação e avaliação de recompensa com pipeline de múltiplos agentes.
- Aplica modelo de recompensa híbrido para otimizar simultaneamente confiabilidade factual e utilidade prática.
Conclusão
- O DeepSeek-V3.2 combina estrutura de atenção eficiente e treinamento RL escalável para superar limites de modelos de código aberto.
- Reduz significativamente a lacuna em desempenho integrado de inferência e agente em relação aos modelos proprietários, consolidando-se como uma alternativa custo-efetiva.
- É avaliado como um exemplo que aponta para uma evolução sustentável de alto desempenho para LLMs de código aberto.
1 comentários
Opinião do Hacker News
É impressionante como eles continuam melhorando a eficiência de custo e compartilhando publicamente o processo de evolução
Espero que esse tipo de esforço ajude a impedir o monopólio da IA
Se modelos abertos puderem competir com os comerciais, fico me perguntando como empresas como Google, Anthropic e OpenAI vão ganhar dinheiro com IA
No passado, o open source fracassou porque ficava atrás dos modelos fechados em qualidade e profundidade de recursos, mas agora parece que o desempenho entrou em uma fase de estagnação
No fim, acho que quem tiver a infraestrutura de energia mais barata vai vencer no longo prazo
Por exemplo, do mesmo jeito que a Amazon oferece a API do MongoDB como serviço, no fim o dinheiro vem da cobrança pelo uso da infraestrutura
A maioria das empresas não tem condições de hospedar internamente modelos SOTA. Isso fica claro quando até servidor de e-mail elas preferem não operar por conta própria
O Google criou o Transformer, a OpenAI popularizou o ChatGPT com RLHF, mas agora os resumos de IA do próprio Google voltaram a ocupar o topo da busca
Documento relacionado: Google “We have no moat, and neither does OpenAI”
Dizem que este modelo melhorou muito não só em benchmark, mas também em eficiência de inferência
Link relacionado: Comparação de desempenho de Thomas Ip
O chat template do DeepSeek-V3.2 mudou bastante.
No começo achei que tinham criado um formato novo, mas olhando a sintaxe, na prática parece ser o mesmo formato Harmony
Nesse caso, teria sido mais fácil de entender se eles tivessem dito desde o início que era compatível com Harmony
Fico me perguntando por que quase não existem modelos na faixa de 32~512GB e por que o Mac Studio M4 tem no máximo 128GB de RAM
É legal ver esse tipo de modelo sendo lançado como open source. Mas fico na dúvida se até um rig de US$ 20 mil com quatro RTX 5090 conseguiria rodá-lo com velocidade suficiente
Isso acaba reforçando a afirmação do comentário original de que, para uso consumidor, ele é lento
Olhando a tabela 3 do artigo, o DS-Speciale fica em 1º ou 2º lugar em quase todos os testes, mas gera mais de 50% a mais de tokens
Também dá para escalar o desempenho de raciocínio com recursos computacionais, gerando várias respostas em paralelo e escolhendo a final
Depois de usar por algumas horas, achei um modelo muito sólido e competitivo. Senti que ele é melhor que o GLM4.6 e também melhor que o Kimi K2. Estou no aguardo do v4
É interessante ver um grande modelo de fronteira lançado sob licença MIT
Não entendo muito bem qual é o critério de avaliação da indústria de IA dos EUA. Modelos chineses estão muito mais baratos e entregam desempenho quase igual
Além disso, os benchmarks estão saturados, então a diferença parece pequena, mas no topo um gap de 1% ainda é bastante significativo na prática
No ranking Metabench que eu criei, os modelos chineses são bons, mas ainda existe diferença para o grupo de ponta
Ainda assim, no quesito custo de inferência, os modelos chineses são fortes em custo-benefício
As empresas americanas não vendem só o modelo, mas também uma infraestrutura global de baixa latência. Isso ajuda a explicar o alto valuation delas
Vale notar que a Cerebras está oferecendo um GLM 4.6 muito rápido
Talvez exista aí a suposição de que o DeepSeek será proibido e que software open source será bloqueado dentro dos EUA
Daqui para frente, é possível que os modelos de fronteira passem a se diferenciar em edge cases mais específicos