2 pontos por GN⁺ 2025-09-30 | 1 comentários | Compartilhar no WhatsApp
  • Modelo experimental baseado no V3.1-Terminus, com adoção do DeepSeek Sparse Attention (mecanismo de atenção esparsa) para aumentar a eficiência no processamento de contextos longos
  • O Sparse Attention oferece suporte a operações esparsas em unidades granulares, melhorando significativamente a eficiência de treinamento e inferência enquanto mantém a qualidade de saída em nível semelhante ao anterior
  • Em benchmarks principais, mostrou resultados semelhantes ou parcialmente melhores que o V3.1-Terminus, com destaque para resolução de problemas de código e matemática e uso de ferramentas do tipo agente
  • Para pesquisa e uso prático, também foram lançados kernels relacionados como TileLang, DeepGEMM e FlashMLA, oferecendo tanto versões de design fáceis de ler quanto kernels CUDA de alto desempenho
  • Pode ser executado imediatamente em diversos ambientes como HuggingFace, SGLang e vLLM, devendo servir de base para pesquisas e aplicações práticas da próxima geração de arquiteturas Transformer eficientes

Introdução

  • DeepSeek-V3.2-Exp é um modelo de etapa anterior à arquitetura de próxima geração, desenvolvido com base no V3.1-Terminus
  • Sua principal característica é a aplicação do DeepSeek Sparse Attention (DSA), que possibilita inferência e treinamento eficientes em contextos longos
  • O objetivo é otimizar a eficiência computacional e o processamento de sequências de texto ampliadas

Principais resultados

  • O DSA concretiza pela primeira vez uma atenção esparsa sofisticada, aumentando a eficiência enquanto preserva a qualidade de saída do modelo
  • A configuração de treinamento foi mantida igual à do V3.1-Terminus para garantir a confiabilidade da comparação de desempenho
  • Resultados em benchmarks públicos:
    • Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
    • Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
    • No geral, foi confirmada paridade ou leve melhora

Kernels open source

  • TileLang: fornece exemplos de kernels com alta legibilidade para fins de pesquisa
  • DeepGEMM: disponibiliza kernels CUDA de alto desempenho e kernels de logits do indexador
  • FlashMLA: fornece kernels de sparse attention

Como executar

  • HuggingFace: após a conversão do modelo, é possível executar chat interativo com torchrun
  • SGLang: imagem Docker disponível (para H200, MI350 e NPUs)
  • vLLM: suporte desde o Day-0, com documentação oficial de recipes disponível

Licença

  • Disponibilizado sob a licença MIT

1 comentários

 
GN⁺ 2025-09-30
Opiniões no Hacker News
  • Chama atenção para um efeito secundário de que pouca gente fala: o preço. É impressionante ver os preços caindo junto com a rápida evolução dos modelos, e isso é tão importante quanto a popularização da IA e a inteligência dos modelos. Pelo que entende, não existe nenhuma “lei” fundamental que impeça a queda de preços. Hoje, de forma parecida com a Lei de Moore (ou com o ciclo de desenvolvimento de chips de IA/Nvidia), cada nova geração de hardware fica muito mais rápida e barata. Então, daqui a um ano, talvez dê para usar o ChatGPT-5 pela metade do preço. Claro, modelos de ponta continuam mais caros, mas a comparação é pelo custo por token.

    • Isso subestima bastante o tamanho da queda de preços. Por exemplo, segundo uma pesquisa da Andreessen Horowitz, nos dois anos desde o lançamento do GPT-3.5, o custo de inferência caiu 10x por ano referência. Então, mesmo num cenário de desaceleração do crescimento, dá para imaginar uma queda de 1.000x nos próximos 5 anos. A queda atual de preços não está ligada diretamente à Lei de Moore, mas a várias inovações, como otimização de modelos, cadeia de suprimentos de memória de alta largura de banda e investimentos em infraestrutura de energia.
  • Considera positivo que os modelos open source chineses continuem evoluindo e ficando mais baratos. Já era um modelo barato, e o preço da API caiu mais 50%, ficando em Input $0.28/M, (com acerto de cache $0.028/M), Output $0.42/M.

    • Já que o preço caiu, bate a curiosidade de saber qual era o valor anterior. A impressão era até de que recentemente o preço tinha subido.

    • A queda de preço é boa, mas fica a dúvida de quanto tempo esse nível vai se manter, porque antes era muito barato, depois subiu bastante de uma vez, e agora caiu de novo.

  • Link de apresentação do modelo Deepseek v3.2-exp

    • Estranhamente, esse modelo aparece como “treinado com dados” ("este provedor pode usar prompts e resultados para treinar novos modelos. Este provedor está desativado no momento, mas pode ser reativado caso a política de dados mude"). Em geral, modelos pagos quase nunca usam dados de entrada para treinamento, então fica a dúvida se a OpenRouter marcou isso errado ou se a Deepseek realmente usa dados de usuários para treinar.

    • Fica a dúvida se a Open Router é mesmo open source. O repositório “principal” está arquivado e só há projetos pequenos. Parece que o verdadeiro open source são apenas os bindings de cliente da API, e o serviço principal de roteamento talvez seja fechado.

  • Pode ser que tenha entendido errado, mas a característica deste modelo parece ser treinar para imitar toda a distribuição de atenção, filtrando apenas os k tokens mais importantes — aqui, k=2048. Assim, mesmo com uma janela de contexto maior, a complexidade computacional dos cálculos de [query, key] não cresce linearmente e se mantém constante. Na prática, olhando o gráfico, o indexador ainda faz uma passada geral pelo contexto inteiro, então continua sendo O(L).

  • Um grande problema desses modelos “baratos” é que, se o provedor não oferecer suporte a cache, o custo real de uso pode acabar sendo maior em ambientes reais, especialmente em fluxos de trabalho com agentes. O custo de tokens de entrada e saída importa menos; o grosso do custo total vem do cache hit (reuso), que responde pela maior parte dos tokens. Nesse caso, talvez usar o GPT-5 seja mais barato ou tenha custo parecido, com um modelo mais forte.

    • A DeepSeek oferece suporte a cache, e o custo com acerto de cache é um décimo do custo sem cache. Especificamente: cache hit $0.028/M, cache miss $0.28/M, output $0.42/M referência

    • Pelo que sabia, esse modelo já suportava cache, e a própria página de preços deixa explícito que, com acerto de cache, o token de entrada sai por $0.028.

    • Você declarou isso como um problema grave, mas colocou uma condição no começo (“se”). A API da DeepSeek oficialmente suporta cache, então não faz sentido criar um problema onde ele não existe guia de cache

  • Surpreende que os benchmarks tenham ficado quase iguais enquanto o custo caiu de forma dramática.

  • Um ponto interessante é que a evolução dos modelos ainda está acontecendo tão rápido que hardware dedicado a um modelo específico ainda não ganhou tanta força, e os principais ganhos de escala continuam vindo de plataformas de uso geral.

    • Ainda assim, vale mencionar chips com arquitetura otimizada, como Google TPU, Groq e Cerebras. Eles não são totalmente dedicados, mas são exemplos de otimização sobre estruturas mais gerais.
  • Deep Sparse Attention parece poder ajudar de forma prática em raciocínio estruturado e de longo contexto, como em código.

  • Parece realmente impressionante. Fica a curiosidade sobre como isso funciona com dados do mundo real, onde diferenças sutis importam, e também se já testaram cenários maiores que uma janela de contexto de 128K.

  • É legal ver um caso real de aplicação de sparse attention