Lançamento do DeepSeek-V3.2 - Expandindo os limites dos modelos de linguagem de grande escala de código aberto

(huggingface.co)

6 pontos por GN⁺ 2025-12-02 | 1 comentários | Compartilhar no WhatsApp

DeepSeek-V3.2 é um modelo de linguagem de grande escala de código aberto que combina eficiência computacional e desempenho de inferência e de agente.
A nova estrutura DeepSeek Sparse Attention (DSA) mantém o desempenho em contextos longos e reduz bastante a complexidade computacional.
Por meio de um framework de aprendizado por reforço (RL) escalável, atinge desempenho de inferência no nível do GPT-5, enquanto a versão de alto desempenho obtém capacidade de inferência equivalente ao Gemini-3.0-Pro.
Com um pipeline de síntese de tarefas de agente em grande escala, gera 1.800 ambientes e 85.000 prompts, melhorando a generalização e a capacidade de execução de comandos em ambientes de interação complexos.
Os modelos de código aberto estão aproximando a lacuna em relação aos modelos proprietários e se consolidando como uma alternativa custo-efetiva.

Visão geral do DeepSeek-V3.2

O DeepSeek-V3.2 foi projetado para superar os limites de desempenho de inferência e agente dos LLMs de código aberto.
- É composto por três tecnologias centrais: DeepSeek Sparse Attention(DSA), framework de RL escalável e pipeline de síntese de tarefas de agente em grande escala.
A versão de alto desempenho DeepSeek-V3.2-Speciale supera o GPT-5 e possui capacidade de inferência equivalente à do Gemini-3.0-Pro.
- Em 2025, registrou desempenho de nível de medalha de ouro em competições como a International Mathematical Olympiad (IMO) e a International Olympiad in Informatics (IOI).
Ao mesmo tempo, melhora a eficiência e o desempenho dos modelos de código aberto e reduz a lacuna de desempenho com os modelos proprietários.

Limitações dos modelos de código aberto e direção de melhoria

Foram apontadas três limitações que fazem os LLMs de código aberto ficarem atrás dos modelos proprietários.
- Ineficiência da estrutura de atenção básica, com alta carga computacional no processamento de sequências longas.
- Escassez de recursos computacionais na etapa de pós-treinamento (post-training), causando queda de desempenho em tarefas difíceis.
- Falta de generalização e capacidade de execução de comandos em agentes, que impõe limites em aplicações práticas.
O DeepSeek-V3.2 busca resolver isso com uma estrutura de atenção eficiente, aprendizado por reforço (RL) escalável e pipeline integrada de inferência com uso de ferramentas.

DeepSeek Sparse Attention (DSA)

A DSA é composta pelo lightning indexer e por um mecanismo de seleção de tokens refinado.
- O lightning indexer funciona com precisão FP8 e determina os principais k pares de chave-valor que cada token de consulta deve selecionar.
- Com isso, reduz a complexidade de O(L²) para O(Lk), permitindo processamento eficiente mesmo em contextos longos.
Implementação baseada em MLA, com manutenção da compatibilidade com o DeepSeek-V3.1-Terminus existente.
É realizado um processo de treinamento contínuo em duas etapas.
- Inicialização do indexer na etapa Dense Warm-up.
- Na etapa Sparse Training, adaptação do modelo inteiro ao padrão DSA com treinamento em 943.7B tokens.

Avaliação de desempenho e eficiência

O DeepSeek-V3.2-Exp melhora substancialmente a eficiência no processamento de contexto longo e mantém resultados equivalentes aos do DeepSeek-V3.1-Terminus sem perda de desempenho.
Em benchmarks independentes como AA-LCR3 e Fiction.liveBench, registra pontuações de inferência melhores que as versões anteriores.
Em um cluster de GPUs H800, o custo por token caiu bastante, com ganho de velocidade fim a fim.

Pós-treinamento (Post-Training) e estrutura de aprendizado por reforço

Combina Specialist Distillation (Distilação especializada) e Mixed RL (RL híbrido).
- Treina por RL 6 modelos especialistas em matemática, programação, raciocínio lógico, agente geral, agente de código e agente de busca.
- Destila os dados de cada especialista para gerar o checkpoint final.
Usa o algoritmo Group Relative Policy Optimization (GRPO) para integrar treinamento de inferência, agente e alinhamento.
- Combina modelo de recompensa, penalidade de tamanho, recompensa de consistência linguística, entre outros.
O DeepSeek-V3.2-Speciale também aplica dados e esquema de recompensa do DeepSeekMath-V2 para fortalecer a capacidade de prova matemática.

Técnicas de estabilização do RL (Scaling GRPO)

Com a Unbiased KL Estimate (estimativa KL sem viés), obtém convergência estável.
- Resolve o problema de gradiente instável do estimador K3 anterior.
Com Off-Policy Sequence Masking, mascara amostras negativas com grande divergência de política, aumentando a estabilidade do treinamento.
O Keep Routing mantém a consistência de roteamento do modelo Mixture-of-Experts.
O Keep Sampling Mask evita divergência de espaço de ações entre políticas durante top-p e top-k sampling.

Raciocínio com uso de ferramentas (Thinking in Tool-Use)

Introduz Thinking Context Management para evitar reprocessamento de inferência desnecessário durante chamadas de ferramenta.
- O histórico de inferência anterior é removido apenas quando uma nova mensagem do usuário é adicionada.
- O histórico de chamadas de ferramenta é mantido para uma gestão de contexto eficiente.
Na fase Cold-Start, combina dados de inferência e dados de agente.
- Os dados de inferência especificam a trilha de raciocínio com a tag <think></think>.
- Cria uma base de treinamento integrada com prompt de sistema incluindo chamadas de ferramentas.
Por meio da síntese em grande escala de tarefas de agente, gera 1.800 ambientes e 85.000 prompts.
- Executa treinamento RL em ambiente real com API de busca web, ferramentas de execução de código e Jupyter Notebook.
- O Search Agent automatiza geração de perguntas, validação e avaliação de recompensa com pipeline de múltiplos agentes.
- Aplica modelo de recompensa híbrido para otimizar simultaneamente confiabilidade factual e utilidade prática.

Conclusão

O DeepSeek-V3.2 combina estrutura de atenção eficiente e treinamento RL escalável para superar limites de modelos de código aberto.
Reduz significativamente a lacuna em desempenho integrado de inferência e agente em relação aos modelos proprietários, consolidando-se como uma alternativa custo-efetiva.
É avaliado como um exemplo que aponta para uma evolução sustentável de alto desempenho para LLMs de código aberto.

1 comentários

GN⁺ 2025-12-02

Opinião do Hacker News

É impressionante como eles continuam melhorando a eficiência de custo e compartilhando publicamente o processo de evolução
Espero que esse tipo de esforço ajude a impedir o monopólio da IA
- Mas não dá para saber quem realmente está “ganhando” em eficiência de custo, porque não conhecemos a estrutura de lucros e perdas de cada empresa
- Concordo, mas não acho que as intenções deles sejam tão simples assim
- Até rodar plenamente em uma única GPU, ninguém é de fato o vencedor da eficiência de custo
- Acho que eles vão continuar com essa abertura até criarem um modelo muito melhor que o da concorrência. Mas se continuarem abrindo tudo mesmo depois de realmente assumirem a liderança, aí sim vou ficar sinceramente impressionado
- Ainda assim, acho ingênuo ver uma empresa apoiada pelo Partido Comunista Chinês como movida por intenções puras. Claramente deve haver outros objetivos por trás disso
Se modelos abertos puderem competir com os comerciais, fico me perguntando como empresas como Google, Anthropic e OpenAI vão ganhar dinheiro com IA
No passado, o open source fracassou porque ficava atrás dos modelos fechados em qualidade e profundidade de recursos, mas agora parece que o desempenho entrou em uma fase de estagnação
No fim, acho que quem tiver a infraestrutura de energia mais barata vai vencer no longo prazo
- Segundo um documento interno do Google, “não existe fosso (moat) em IA/LLM”. Mas mesmo sem possuir diretamente o modelo, ainda dá para lucrar muito oferecendo isso como SaaS ou MaaS
  Por exemplo, do mesmo jeito que a Amazon oferece a API do MongoDB como serviço, no fim o dinheiro vem da cobrança pelo uso da infraestrutura
  A maioria das empresas não tem condições de hospedar internamente modelos SOTA. Isso fica claro quando até servidor de e-mail elas preferem não operar por conta própria
  O Google criou o Transformer, a OpenAI popularizou o ChatGPT com RLHF, mas agora os resumos de IA do próprio Google voltaram a ocupar o topo da busca
  Documento relacionado: Google “We have no moat, and neither does OpenAI”
- As empresas confiam na OpenAI ou na Anthropic. Também importa ter alguém para responsabilizar quando algo dá errado
- Se for possível garantir energia barata no espaço, Musk pode acabar ganhando uma grande vantagem na corrida da IA. Ele parece obcecado com a ideia de construir uma fábrica de satélites de IA na Lua
- No fim, a disputa é uma combinação de UX, lock-in e confiança. Quanto mais a IA acessa dados pessoais em profundidade, mais as pessoas tendem a preferir marcas conhecidas
- O modelo puro, por si só, não gera lucro. O valor principal está em integrar o modelo a uma plataforma que já monetiza
Dizem que este modelo melhorou muito não só em benchmark, mas também em eficiência de inferência
Link relacionado: Comparação de desempenho de Thomas Ip
- Fico curioso para saber por que ele é tão eficiente
O chat template do DeepSeek-V3.2 mudou bastante.
No começo achei que tinham criado um formato novo, mas olhando a sintaxe, na prática parece ser o mesmo formato Harmony
Nesse caso, teria sido mais fácil de entender se eles tivessem dito desde o início que era compatível com Harmony
Fico me perguntando por que quase não existem modelos na faixa de 32~512GB e por que o Mac Studio M4 tem no máximo 128GB de RAM
- Brincando, isso me faz lembrar da frase “128GB é suficiente”. Espero mais RAM no M5 Max
É legal ver esse tipo de modelo sendo lançado como open source. Mas fico na dúvida se até um rig de US$ 20 mil com quatro RTX 5090 conseguiria rodá-lo com velocidade suficiente
- Dizem que no Mac Studio M3 Ultra com 512GB ele faz cerca de 20 tokens por segundo. Vídeo demo
- Para modelos grandes, o mais realista é rodar na nuvem com cobrança por hora ou por token. Dá para comprar um rack com H100 e operar por conta própria, mas usar cloud é muito mais eficiente
- Rig pessoal agora tem custo-benefício ruim. Considerando GPU, energia e refrigeração, acho melhor comprar uma RTX Pro 6000
- No OpenRouter, os dois provedores que oferecem DeepSeek-V3.2 (incluindo a própria DeepSeek) estão rodando em cerca de 28 tps. Link do OpenRouter
  Isso acaba reforçando a afirmação do comentário original de que, para uso consumidor, ele é lento
- Eu também uso um rig com 6 RTX 3090, e um modelo de 685B parâmetros é lento demais. Para usar confortavelmente, tem que ficar em modelos abaixo de 144B. O GLM 4.5 Air foi especialmente bom
Olhando a tabela 3 do artigo, o DS-Speciale fica em 1º ou 2º lugar em quase todos os testes, mas gera mais de 50% a mais de tokens
- Alguns problemas de raciocínio lógico exigem cadeias de pensamento mais longas. Como o DeepSeek tem custo baixo, ele pôde maximizar esse aspecto
  Também dá para escalar o desempenho de raciocínio com recursos computacionais, gerando várias respostas em paralelo e escolhendo a final
Depois de usar por algumas horas, achei um modelo muito sólido e competitivo. Senti que ele é melhor que o GLM4.6 e também melhor que o Kimi K2. Estou no aguardo do v4
É interessante ver um grande modelo de fronteira lançado sob licença MIT
Não entendo muito bem qual é o critério de avaliação da indústria de IA dos EUA. Modelos chineses estão muito mais baratos e entregam desempenho quase igual
- Os modelos chineses são mais focados em texto, enquanto os dos EUA e da Europa também lidam com imagem, voz e vídeo, então o custo é maior
  Além disso, os benchmarks estão saturados, então a diferença parece pequena, mas no topo um gap de 1% ainda é bastante significativo na prática
  No ranking Metabench que eu criei, os modelos chineses são bons, mas ainda existe diferença para o grupo de ponta
  Ainda assim, no quesito custo de inferência, os modelos chineses são fortes em custo-benefício
- Na implantação real, o fator decisivo é a velocidade da infraestrutura. No OpenRouter, os modelos chineses não são tão rápidos quanto Claude, GPT ou Gemini
  As empresas americanas não vendem só o modelo, mas também uma infraestrutura global de baixa latência. Isso ajuda a explicar o alto valuation delas
  Vale notar que a Cerebras está oferecendo um GLM 4.6 muito rápido
- Provedores terceirizados não oferecem cache. Se o cache for ativado, o custo dos modelos americanos pode cair pela metade e eles ficariam bem mais competitivos
- O valuation das empresas americanas se baseia mais no potencial futuro do que no resultado atual. É um investimento feito com pouca compreensão da pesquisa chinesa
  Talvez exista aí a suposição de que o DeepSeek será proibido e que software open source será bloqueado dentro dos EUA
- Ainda assim, se os EUA não tivessem primeiro desencadeado a disputa por FOMO (medo de ficar para trás), talvez a estratégia chinesa não estivesse funcionando tão bem agora
  Daqui para frente, é possível que os modelos de fronteira passem a se diferenciar em edge cases mais específicos

Lançamento do DeepSeek-V3.2 - Expandindo os limites dos modelos de linguagem de grande escala de código aberto

Visão geral do DeepSeek-V3.2

Limitações dos modelos de código aberto e direção de melhoria

DeepSeek Sparse Attention (DSA)

Avaliação de desempenho e eficiência

Pós-treinamento (Post-Training) e estrutura de aprendizado por reforço

Técnicas de estabilização do RL (Scaling GRPO)

Raciocínio com uso de ferramentas (Thinking in Tool-Use)

Conclusão

Leituras relacionadas

1 comentários

Opinião do Hacker News