6 pontos por GN⁺ 2025-12-02 | 1 comentários | Compartilhar no WhatsApp
  • DeepSeek-V3.2 é um modelo de linguagem de grande escala de código aberto que combina eficiência computacional e desempenho de inferência e de agente.
  • A nova estrutura DeepSeek Sparse Attention (DSA) mantém o desempenho em contextos longos e reduz bastante a complexidade computacional.
  • Por meio de um framework de aprendizado por reforço (RL) escalável, atinge desempenho de inferência no nível do GPT-5, enquanto a versão de alto desempenho obtém capacidade de inferência equivalente ao Gemini-3.0-Pro.
  • Com um pipeline de síntese de tarefas de agente em grande escala, gera 1.800 ambientes e 85.000 prompts, melhorando a generalização e a capacidade de execução de comandos em ambientes de interação complexos.
  • Os modelos de código aberto estão aproximando a lacuna em relação aos modelos proprietários e se consolidando como uma alternativa custo-efetiva.

Visão geral do DeepSeek-V3.2

  • O DeepSeek-V3.2 foi projetado para superar os limites de desempenho de inferência e agente dos LLMs de código aberto.
    • É composto por três tecnologias centrais: DeepSeek Sparse Attention(DSA), framework de RL escalável e pipeline de síntese de tarefas de agente em grande escala.
  • A versão de alto desempenho DeepSeek-V3.2-Speciale supera o GPT-5 e possui capacidade de inferência equivalente à do Gemini-3.0-Pro.
    • Em 2025, registrou desempenho de nível de medalha de ouro em competições como a International Mathematical Olympiad (IMO) e a International Olympiad in Informatics (IOI).
  • Ao mesmo tempo, melhora a eficiência e o desempenho dos modelos de código aberto e reduz a lacuna de desempenho com os modelos proprietários.

Limitações dos modelos de código aberto e direção de melhoria

  • Foram apontadas três limitações que fazem os LLMs de código aberto ficarem atrás dos modelos proprietários.
    • Ineficiência da estrutura de atenção básica, com alta carga computacional no processamento de sequências longas.
    • Escassez de recursos computacionais na etapa de pós-treinamento (post-training), causando queda de desempenho em tarefas difíceis.
    • Falta de generalização e capacidade de execução de comandos em agentes, que impõe limites em aplicações práticas.
  • O DeepSeek-V3.2 busca resolver isso com uma estrutura de atenção eficiente, aprendizado por reforço (RL) escalável e pipeline integrada de inferência com uso de ferramentas.

DeepSeek Sparse Attention (DSA)

  • A DSA é composta pelo lightning indexer e por um mecanismo de seleção de tokens refinado.
    • O lightning indexer funciona com precisão FP8 e determina os principais k pares de chave-valor que cada token de consulta deve selecionar.
    • Com isso, reduz a complexidade de O(L²) para O(Lk), permitindo processamento eficiente mesmo em contextos longos.
  • Implementação baseada em MLA, com manutenção da compatibilidade com o DeepSeek-V3.1-Terminus existente.
  • É realizado um processo de treinamento contínuo em duas etapas.
    • Inicialização do indexer na etapa Dense Warm-up.
    • Na etapa Sparse Training, adaptação do modelo inteiro ao padrão DSA com treinamento em 943.7B tokens.

Avaliação de desempenho e eficiência

  • O DeepSeek-V3.2-Exp melhora substancialmente a eficiência no processamento de contexto longo e mantém resultados equivalentes aos do DeepSeek-V3.1-Terminus sem perda de desempenho.
  • Em benchmarks independentes como AA-LCR3 e Fiction.liveBench, registra pontuações de inferência melhores que as versões anteriores.
  • Em um cluster de GPUs H800, o custo por token caiu bastante, com ganho de velocidade fim a fim.

Pós-treinamento (Post-Training) e estrutura de aprendizado por reforço

  • Combina Specialist Distillation (Distilação especializada) e Mixed RL (RL híbrido).
    • Treina por RL 6 modelos especialistas em matemática, programação, raciocínio lógico, agente geral, agente de código e agente de busca.
    • Destila os dados de cada especialista para gerar o checkpoint final.
  • Usa o algoritmo Group Relative Policy Optimization (GRPO) para integrar treinamento de inferência, agente e alinhamento.
    • Combina modelo de recompensa, penalidade de tamanho, recompensa de consistência linguística, entre outros.
  • O DeepSeek-V3.2-Speciale também aplica dados e esquema de recompensa do DeepSeekMath-V2 para fortalecer a capacidade de prova matemática.

Técnicas de estabilização do RL (Scaling GRPO)

  • Com a Unbiased KL Estimate (estimativa KL sem viés), obtém convergência estável.
    • Resolve o problema de gradiente instável do estimador K3 anterior.
  • Com Off-Policy Sequence Masking, mascara amostras negativas com grande divergência de política, aumentando a estabilidade do treinamento.
  • O Keep Routing mantém a consistência de roteamento do modelo Mixture-of-Experts.
  • O Keep Sampling Mask evita divergência de espaço de ações entre políticas durante top-p e top-k sampling.

Raciocínio com uso de ferramentas (Thinking in Tool-Use)

  • Introduz Thinking Context Management para evitar reprocessamento de inferência desnecessário durante chamadas de ferramenta.
    • O histórico de inferência anterior é removido apenas quando uma nova mensagem do usuário é adicionada.
    • O histórico de chamadas de ferramenta é mantido para uma gestão de contexto eficiente.
  • Na fase Cold-Start, combina dados de inferência e dados de agente.
    • Os dados de inferência especificam a trilha de raciocínio com a tag <think></think>.
    • Cria uma base de treinamento integrada com prompt de sistema incluindo chamadas de ferramentas.
  • Por meio da síntese em grande escala de tarefas de agente, gera 1.800 ambientes e 85.000 prompts.
    • Executa treinamento RL em ambiente real com API de busca web, ferramentas de execução de código e Jupyter Notebook.
    • O Search Agent automatiza geração de perguntas, validação e avaliação de recompensa com pipeline de múltiplos agentes.
    • Aplica modelo de recompensa híbrido para otimizar simultaneamente confiabilidade factual e utilidade prática.

Conclusão

  • O DeepSeek-V3.2 combina estrutura de atenção eficiente e treinamento RL escalável para superar limites de modelos de código aberto.
  • Reduz significativamente a lacuna em desempenho integrado de inferência e agente em relação aos modelos proprietários, consolidando-se como uma alternativa custo-efetiva.
  • É avaliado como um exemplo que aponta para uma evolução sustentável de alto desempenho para LLMs de código aberto.

1 comentários

 
GN⁺ 2025-12-02
Opinião do Hacker News
  • É impressionante como eles continuam melhorando a eficiência de custo e compartilhando publicamente o processo de evolução
    Espero que esse tipo de esforço ajude a impedir o monopólio da IA

    • Mas não dá para saber quem realmente está “ganhando” em eficiência de custo, porque não conhecemos a estrutura de lucros e perdas de cada empresa
    • Concordo, mas não acho que as intenções deles sejam tão simples assim
    • Até rodar plenamente em uma única GPU, ninguém é de fato o vencedor da eficiência de custo
    • Acho que eles vão continuar com essa abertura até criarem um modelo muito melhor que o da concorrência. Mas se continuarem abrindo tudo mesmo depois de realmente assumirem a liderança, aí sim vou ficar sinceramente impressionado
    • Ainda assim, acho ingênuo ver uma empresa apoiada pelo Partido Comunista Chinês como movida por intenções puras. Claramente deve haver outros objetivos por trás disso
  • Se modelos abertos puderem competir com os comerciais, fico me perguntando como empresas como Google, Anthropic e OpenAI vão ganhar dinheiro com IA
    No passado, o open source fracassou porque ficava atrás dos modelos fechados em qualidade e profundidade de recursos, mas agora parece que o desempenho entrou em uma fase de estagnação
    No fim, acho que quem tiver a infraestrutura de energia mais barata vai vencer no longo prazo

    • Segundo um documento interno do Google, “não existe fosso (moat) em IA/LLM”. Mas mesmo sem possuir diretamente o modelo, ainda dá para lucrar muito oferecendo isso como SaaS ou MaaS
      Por exemplo, do mesmo jeito que a Amazon oferece a API do MongoDB como serviço, no fim o dinheiro vem da cobrança pelo uso da infraestrutura
      A maioria das empresas não tem condições de hospedar internamente modelos SOTA. Isso fica claro quando até servidor de e-mail elas preferem não operar por conta própria
      O Google criou o Transformer, a OpenAI popularizou o ChatGPT com RLHF, mas agora os resumos de IA do próprio Google voltaram a ocupar o topo da busca
      Documento relacionado: Google “We have no moat, and neither does OpenAI”
    • As empresas confiam na OpenAI ou na Anthropic. Também importa ter alguém para responsabilizar quando algo dá errado
    • Se for possível garantir energia barata no espaço, Musk pode acabar ganhando uma grande vantagem na corrida da IA. Ele parece obcecado com a ideia de construir uma fábrica de satélites de IA na Lua
    • No fim, a disputa é uma combinação de UX, lock-in e confiança. Quanto mais a IA acessa dados pessoais em profundidade, mais as pessoas tendem a preferir marcas conhecidas
    • O modelo puro, por si só, não gera lucro. O valor principal está em integrar o modelo a uma plataforma que já monetiza
  • Dizem que este modelo melhorou muito não só em benchmark, mas também em eficiência de inferência
    Link relacionado: Comparação de desempenho de Thomas Ip

    • Fico curioso para saber por que ele é tão eficiente
  • O chat template do DeepSeek-V3.2 mudou bastante.
    No começo achei que tinham criado um formato novo, mas olhando a sintaxe, na prática parece ser o mesmo formato Harmony
    Nesse caso, teria sido mais fácil de entender se eles tivessem dito desde o início que era compatível com Harmony

  • Fico me perguntando por que quase não existem modelos na faixa de 32~512GB e por que o Mac Studio M4 tem no máximo 128GB de RAM

    • Brincando, isso me faz lembrar da frase “128GB é suficiente”. Espero mais RAM no M5 Max
  • É legal ver esse tipo de modelo sendo lançado como open source. Mas fico na dúvida se até um rig de US$ 20 mil com quatro RTX 5090 conseguiria rodá-lo com velocidade suficiente

    • Dizem que no Mac Studio M3 Ultra com 512GB ele faz cerca de 20 tokens por segundo. Vídeo demo
    • Para modelos grandes, o mais realista é rodar na nuvem com cobrança por hora ou por token. Dá para comprar um rack com H100 e operar por conta própria, mas usar cloud é muito mais eficiente
    • Rig pessoal agora tem custo-benefício ruim. Considerando GPU, energia e refrigeração, acho melhor comprar uma RTX Pro 6000
    • No OpenRouter, os dois provedores que oferecem DeepSeek-V3.2 (incluindo a própria DeepSeek) estão rodando em cerca de 28 tps. Link do OpenRouter
      Isso acaba reforçando a afirmação do comentário original de que, para uso consumidor, ele é lento
    • Eu também uso um rig com 6 RTX 3090, e um modelo de 685B parâmetros é lento demais. Para usar confortavelmente, tem que ficar em modelos abaixo de 144B. O GLM 4.5 Air foi especialmente bom
  • Olhando a tabela 3 do artigo, o DS-Speciale fica em 1º ou 2º lugar em quase todos os testes, mas gera mais de 50% a mais de tokens

    • Alguns problemas de raciocínio lógico exigem cadeias de pensamento mais longas. Como o DeepSeek tem custo baixo, ele pôde maximizar esse aspecto
      Também dá para escalar o desempenho de raciocínio com recursos computacionais, gerando várias respostas em paralelo e escolhendo a final
  • Depois de usar por algumas horas, achei um modelo muito sólido e competitivo. Senti que ele é melhor que o GLM4.6 e também melhor que o Kimi K2. Estou no aguardo do v4

  • É interessante ver um grande modelo de fronteira lançado sob licença MIT

  • Não entendo muito bem qual é o critério de avaliação da indústria de IA dos EUA. Modelos chineses estão muito mais baratos e entregam desempenho quase igual

    • Os modelos chineses são mais focados em texto, enquanto os dos EUA e da Europa também lidam com imagem, voz e vídeo, então o custo é maior
      Além disso, os benchmarks estão saturados, então a diferença parece pequena, mas no topo um gap de 1% ainda é bastante significativo na prática
      No ranking Metabench que eu criei, os modelos chineses são bons, mas ainda existe diferença para o grupo de ponta
      Ainda assim, no quesito custo de inferência, os modelos chineses são fortes em custo-benefício
    • Na implantação real, o fator decisivo é a velocidade da infraestrutura. No OpenRouter, os modelos chineses não são tão rápidos quanto Claude, GPT ou Gemini
      As empresas americanas não vendem só o modelo, mas também uma infraestrutura global de baixa latência. Isso ajuda a explicar o alto valuation delas
      Vale notar que a Cerebras está oferecendo um GLM 4.6 muito rápido
    • Provedores terceirizados não oferecem cache. Se o cache for ativado, o custo dos modelos americanos pode cair pela metade e eles ficariam bem mais competitivos
    • O valuation das empresas americanas se baseia mais no potencial futuro do que no resultado atual. É um investimento feito com pouca compreensão da pesquisa chinesa
      Talvez exista aí a suposição de que o DeepSeek será proibido e que software open source será bloqueado dentro dos EUA
    • Ainda assim, se os EUA não tivessem primeiro desencadeado a disputa por FOMO (medo de ficar para trás), talvez a estratégia chinesa não estivesse funcionando tão bem agora
      Daqui para frente, é possível que os modelos de fronteira passem a se diferenciar em edge cases mais específicos