- Modelo experimental baseado no V3.1-Terminus, com adoção do DeepSeek Sparse Attention (mecanismo de atenção esparsa) para aumentar a eficiência no processamento de contextos longos
- O Sparse Attention oferece suporte a operações esparsas em unidades granulares, melhorando significativamente a eficiência de treinamento e inferência enquanto mantém a qualidade de saída em nível semelhante ao anterior
- Em benchmarks principais, mostrou resultados semelhantes ou parcialmente melhores que o V3.1-Terminus, com destaque para resolução de problemas de código e matemática e uso de ferramentas do tipo agente
- Para pesquisa e uso prático, também foram lançados kernels relacionados como TileLang, DeepGEMM e FlashMLA, oferecendo tanto versões de design fáceis de ler quanto kernels CUDA de alto desempenho
- Pode ser executado imediatamente em diversos ambientes como HuggingFace, SGLang e vLLM, devendo servir de base para pesquisas e aplicações práticas da próxima geração de arquiteturas Transformer eficientes
Introdução
- DeepSeek-V3.2-Exp é um modelo de etapa anterior à arquitetura de próxima geração, desenvolvido com base no V3.1-Terminus
- Sua principal característica é a aplicação do DeepSeek Sparse Attention (DSA), que possibilita inferência e treinamento eficientes em contextos longos
- O objetivo é otimizar a eficiência computacional e o processamento de sequências de texto ampliadas
Principais resultados
- O DSA concretiza pela primeira vez uma atenção esparsa sofisticada, aumentando a eficiência enquanto preserva a qualidade de saída do modelo
- A configuração de treinamento foi mantida igual à do V3.1-Terminus para garantir a confiabilidade da comparação de desempenho
- Resultados em benchmarks públicos:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- No geral, foi confirmada paridade ou leve melhora
Kernels open source
- TileLang: fornece exemplos de kernels com alta legibilidade para fins de pesquisa
- DeepGEMM: disponibiliza kernels CUDA de alto desempenho e kernels de logits do indexador
- FlashMLA: fornece kernels de sparse attention
Como executar
- HuggingFace: após a conversão do modelo, é possível executar chat interativo com
torchrun
- SGLang: imagem Docker disponível (para H200, MI350 e NPUs)
- vLLM: suporte desde o Day-0, com documentação oficial de recipes disponível
Licença
- Disponibilizado sob a licença MIT
1 comentários
Opiniões no Hacker News
Chama atenção para um efeito secundário de que pouca gente fala: o preço. É impressionante ver os preços caindo junto com a rápida evolução dos modelos, e isso é tão importante quanto a popularização da IA e a inteligência dos modelos. Pelo que entende, não existe nenhuma “lei” fundamental que impeça a queda de preços. Hoje, de forma parecida com a Lei de Moore (ou com o ciclo de desenvolvimento de chips de IA/Nvidia), cada nova geração de hardware fica muito mais rápida e barata. Então, daqui a um ano, talvez dê para usar o ChatGPT-5 pela metade do preço. Claro, modelos de ponta continuam mais caros, mas a comparação é pelo custo por token.
Considera positivo que os modelos open source chineses continuem evoluindo e ficando mais baratos. Já era um modelo barato, e o preço da API caiu mais 50%, ficando em Input $0.28/M, (com acerto de cache $0.028/M), Output $0.42/M.
Já que o preço caiu, bate a curiosidade de saber qual era o valor anterior. A impressão era até de que recentemente o preço tinha subido.
A queda de preço é boa, mas fica a dúvida de quanto tempo esse nível vai se manter, porque antes era muito barato, depois subiu bastante de uma vez, e agora caiu de novo.
Link de apresentação do modelo Deepseek v3.2-exp
Estranhamente, esse modelo aparece como “treinado com dados” ("este provedor pode usar prompts e resultados para treinar novos modelos. Este provedor está desativado no momento, mas pode ser reativado caso a política de dados mude"). Em geral, modelos pagos quase nunca usam dados de entrada para treinamento, então fica a dúvida se a OpenRouter marcou isso errado ou se a Deepseek realmente usa dados de usuários para treinar.
Fica a dúvida se a Open Router é mesmo open source. O repositório “principal” está arquivado e só há projetos pequenos. Parece que o verdadeiro open source são apenas os bindings de cliente da API, e o serviço principal de roteamento talvez seja fechado.
Pode ser que tenha entendido errado, mas a característica deste modelo parece ser treinar para imitar toda a distribuição de atenção, filtrando apenas os k tokens mais importantes — aqui, k=2048. Assim, mesmo com uma janela de contexto maior, a complexidade computacional dos cálculos de [query, key] não cresce linearmente e se mantém constante. Na prática, olhando o gráfico, o indexador ainda faz uma passada geral pelo contexto inteiro, então continua sendo O(L).
Um grande problema desses modelos “baratos” é que, se o provedor não oferecer suporte a cache, o custo real de uso pode acabar sendo maior em ambientes reais, especialmente em fluxos de trabalho com agentes. O custo de tokens de entrada e saída importa menos; o grosso do custo total vem do cache hit (reuso), que responde pela maior parte dos tokens. Nesse caso, talvez usar o GPT-5 seja mais barato ou tenha custo parecido, com um modelo mais forte.
A DeepSeek oferece suporte a cache, e o custo com acerto de cache é um décimo do custo sem cache. Especificamente: cache hit $0.028/M, cache miss $0.28/M, output $0.42/M referência
Pelo que sabia, esse modelo já suportava cache, e a própria página de preços deixa explícito que, com acerto de cache, o token de entrada sai por $0.028.
Você declarou isso como um problema grave, mas colocou uma condição no começo (“se”). A API da DeepSeek oficialmente suporta cache, então não faz sentido criar um problema onde ele não existe guia de cache
Surpreende que os benchmarks tenham ficado quase iguais enquanto o custo caiu de forma dramática.
Um ponto interessante é que a evolução dos modelos ainda está acontecendo tão rápido que hardware dedicado a um modelo específico ainda não ganhou tanta força, e os principais ganhos de escala continuam vindo de plataformas de uso geral.
Deep Sparse Attention parece poder ajudar de forma prática em raciocínio estruturado e de longo contexto, como em código.
Parece realmente impressionante. Fica a curiosidade sobre como isso funciona com dados do mundo real, onde diferenças sutis importam, e também se já testaram cenários maiores que uma janela de contexto de 128K.
É legal ver um caso real de aplicação de sparse attention