DeepSeek-V3.2-Exp: modelo experimental com otimização de contexto longo é lançado

(github.com/deepseek-ai)

2 pontos por GN⁺ 2025-09-30 | 1 comentários | Compartilhar no WhatsApp

Modelo experimental baseado no V3.1-Terminus, com adoção do DeepSeek Sparse Attention (mecanismo de atenção esparsa) para aumentar a eficiência no processamento de contextos longos
O Sparse Attention oferece suporte a operações esparsas em unidades granulares, melhorando significativamente a eficiência de treinamento e inferência enquanto mantém a qualidade de saída em nível semelhante ao anterior
Em benchmarks principais, mostrou resultados semelhantes ou parcialmente melhores que o V3.1-Terminus, com destaque para resolução de problemas de código e matemática e uso de ferramentas do tipo agente
Para pesquisa e uso prático, também foram lançados kernels relacionados como TileLang, DeepGEMM e FlashMLA, oferecendo tanto versões de design fáceis de ler quanto kernels CUDA de alto desempenho
Pode ser executado imediatamente em diversos ambientes como HuggingFace, SGLang e vLLM, devendo servir de base para pesquisas e aplicações práticas da próxima geração de arquiteturas Transformer eficientes

Introdução

DeepSeek-V3.2-Exp é um modelo de etapa anterior à arquitetura de próxima geração, desenvolvido com base no V3.1-Terminus
Sua principal característica é a aplicação do DeepSeek Sparse Attention (DSA), que possibilita inferência e treinamento eficientes em contextos longos
O objetivo é otimizar a eficiência computacional e o processamento de sequências de texto ampliadas

Principais resultados

O DSA concretiza pela primeira vez uma atenção esparsa sofisticada, aumentando a eficiência enquanto preserva a qualidade de saída do modelo
A configuração de treinamento foi mantida igual à do V3.1-Terminus para garantir a confiabilidade da comparação de desempenho
Resultados em benchmarks públicos:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- No geral, foi confirmada paridade ou leve melhora

Kernels open source

TileLang: fornece exemplos de kernels com alta legibilidade para fins de pesquisa
DeepGEMM: disponibiliza kernels CUDA de alto desempenho e kernels de logits do indexador
FlashMLA: fornece kernels de sparse attention

Como executar

HuggingFace: após a conversão do modelo, é possível executar chat interativo com torchrun
SGLang: imagem Docker disponível (para H200, MI350 e NPUs)
vLLM: suporte desde o Day-0, com documentação oficial de recipes disponível

Licença

Disponibilizado sob a licença MIT

1 comentários

GN⁺ 2025-09-30

Opiniões no Hacker News

Chama atenção para um efeito secundário de que pouca gente fala: o preço. É impressionante ver os preços caindo junto com a rápida evolução dos modelos, e isso é tão importante quanto a popularização da IA e a inteligência dos modelos. Pelo que entende, não existe nenhuma “lei” fundamental que impeça a queda de preços. Hoje, de forma parecida com a Lei de Moore (ou com o ciclo de desenvolvimento de chips de IA/Nvidia), cada nova geração de hardware fica muito mais rápida e barata. Então, daqui a um ano, talvez dê para usar o ChatGPT-5 pela metade do preço. Claro, modelos de ponta continuam mais caros, mas a comparação é pelo custo por token.
- Isso subestima bastante o tamanho da queda de preços. Por exemplo, segundo uma pesquisa da Andreessen Horowitz, nos dois anos desde o lançamento do GPT-3.5, o custo de inferência caiu 10x por ano referência. Então, mesmo num cenário de desaceleração do crescimento, dá para imaginar uma queda de 1.000x nos próximos 5 anos. A queda atual de preços não está ligada diretamente à Lei de Moore, mas a várias inovações, como otimização de modelos, cadeia de suprimentos de memória de alta largura de banda e investimentos em infraestrutura de energia.
Considera positivo que os modelos open source chineses continuem evoluindo e ficando mais baratos. Já era um modelo barato, e o preço da API caiu mais 50%, ficando em Input $0.28/M, (com acerto de cache $0.028/M), Output $0.42/M.
- Já que o preço caiu, bate a curiosidade de saber qual era o valor anterior. A impressão era até de que recentemente o preço tinha subido.
- A queda de preço é boa, mas fica a dúvida de quanto tempo esse nível vai se manter, porque antes era muito barato, depois subiu bastante de uma vez, e agora caiu de novo.
Link de apresentação do modelo Deepseek v3.2-exp
- Estranhamente, esse modelo aparece como “treinado com dados” ("este provedor pode usar prompts e resultados para treinar novos modelos. Este provedor está desativado no momento, mas pode ser reativado caso a política de dados mude"). Em geral, modelos pagos quase nunca usam dados de entrada para treinamento, então fica a dúvida se a OpenRouter marcou isso errado ou se a Deepseek realmente usa dados de usuários para treinar.
- Fica a dúvida se a Open Router é mesmo open source. O repositório “principal” está arquivado e só há projetos pequenos. Parece que o verdadeiro open source são apenas os bindings de cliente da API, e o serviço principal de roteamento talvez seja fechado.
Pode ser que tenha entendido errado, mas a característica deste modelo parece ser treinar para imitar toda a distribuição de atenção, filtrando apenas os k tokens mais importantes — aqui, k=2048. Assim, mesmo com uma janela de contexto maior, a complexidade computacional dos cálculos de [query, key] não cresce linearmente e se mantém constante. Na prática, olhando o gráfico, o indexador ainda faz uma passada geral pelo contexto inteiro, então continua sendo O(L).
Um grande problema desses modelos “baratos” é que, se o provedor não oferecer suporte a cache, o custo real de uso pode acabar sendo maior em ambientes reais, especialmente em fluxos de trabalho com agentes. O custo de tokens de entrada e saída importa menos; o grosso do custo total vem do cache hit (reuso), que responde pela maior parte dos tokens. Nesse caso, talvez usar o GPT-5 seja mais barato ou tenha custo parecido, com um modelo mais forte.
- A DeepSeek oferece suporte a cache, e o custo com acerto de cache é um décimo do custo sem cache. Especificamente: cache hit $0.028/M, cache miss $0.28/M, output $0.42/M referência
- Pelo que sabia, esse modelo já suportava cache, e a própria página de preços deixa explícito que, com acerto de cache, o token de entrada sai por $0.028.
- Você declarou isso como um problema grave, mas colocou uma condição no começo (“se”). A API da DeepSeek oficialmente suporta cache, então não faz sentido criar um problema onde ele não existe guia de cache
Surpreende que os benchmarks tenham ficado quase iguais enquanto o custo caiu de forma dramática.
Um ponto interessante é que a evolução dos modelos ainda está acontecendo tão rápido que hardware dedicado a um modelo específico ainda não ganhou tanta força, e os principais ganhos de escala continuam vindo de plataformas de uso geral.
- Ainda assim, vale mencionar chips com arquitetura otimizada, como Google TPU, Groq e Cerebras. Eles não são totalmente dedicados, mas são exemplos de otimização sobre estruturas mais gerais.
Deep Sparse Attention parece poder ajudar de forma prática em raciocínio estruturado e de longo contexto, como em código.
Parece realmente impressionante. Fica a curiosidade sobre como isso funciona com dados do mundo real, onde diferenças sutis importam, e também se já testaram cenários maiores que uma janela de contexto de 128K.
É legal ver um caso real de aplicação de sparse attention

DeepSeek-V3.2-Exp: modelo experimental com otimização de contexto longo é lançado

Introdução

Principais resultados

Kernels open source

Como executar

Licença

Leituras relacionadas

1 comentários

Opiniões no Hacker News