1 pontos por GN⁺ 14 일 전 | 1 comentários | Compartilhar no WhatsApp
  • I-DLM é o primeiro caso em que um modelo de linguagem baseado em difusão alcança ao mesmo tempo qualidade no nível de modelos AR (Autoregressive) e velocidade de geração paralela
  • Com Introspective Strided Decoding (ISD), ele executa geração de novos tokens e verificação de tokens anteriores em um único forward pass
  • I-DLM-8B usa metade dos parâmetros do LLaDA-2.1-mini (16B) e ainda melhora +26 pontos no AIME-24 e +15 pontos no LiveCodeBench-v6
  • Com Gated LoRA, implementa aceleração lossless em nível de bit, com compatibilidade total com a infraestrutura SGLang
  • O modelo mostra que modelos de linguagem por difusão podem ser implantados em larga escala de forma prática por meio de treinamento com autoconsistência e otimização de decodificação paralela

Visão geral

  • I-DLM (Introspective Diffusion Language Model) é um modelo que mantém a capacidade de geração paralela de tokens dos modelos de linguagem por difusão (DLM) existentes, ao mesmo tempo em que resolve o problema de autoconsistência introspectiva (introspective consistency) para atingir qualidade no nível de modelos AR
  • Com Introspective Strided Decoding (ISD), ele gera novos tokens e verifica tokens anteriores em um único forward pass
  • I-DLM-8B é o primeiro DLM a alcançar a mesma qualidade de modelos AR de porte equivalente; com metade dos parâmetros do LLaDA-2.1-mini (16B), ele melhora +26 pontos no AIME-24 e +15 pontos no LiveCodeBench-v6
  • Em ambientes de alta concorrência (C=64), atinge 2,9 a 4,1 vezes mais throughput, e oferece aceleração lossless em nível de bit via Gated LoRA

Por que a Introspective Consistency é necessária

  • Modelos AR executam geração e autoverificação simultaneamente em um único forward pass, enquanto os DLMs existentes aprendem apenas denoising, o que resulta em falta de autoconsistência
  • Três gargalos dos DLMs existentes
    • Baixa autoconsistência: SDAR 0.699 vs I-DLM 0.984
    • Computação ineficiente: TiDAR com cerca de 7.8x de overhead vs I-DLM com cerca de 2.5x
    • Desalinhamento de infraestrutura: SDAR slope=84 vs I-DLM=549

Metodologia do I-DLM

  • Treinamento com Introspective Consistency

    • Um modelo AR pré-treinado é convertido por meio de causal attention, logit shift e da função objetivo all-masked
  • Introspective Strided Decoding (ISD)

    • Em um único forward pass, realiza em paralelo a geração de N tokens e a verificação de tokens anteriores
    • Usa o critério de aceitação p/q (acceptance criterion) para validar o resultado da geração
  • Serving compatível com AR

    • Com uma estrutura estrita de causal attention, pode ser integrado diretamente à infraestrutura SGLang
    • Funciona no mesmo ambiente de serving de modelos AR, sem necessidade de infraestrutura customizada separada

Resultados de desempenho

  • O I-DLM é o primeiro DLM com qualidade equivalente à de modelos AR do mesmo porte, superando os DLMs anteriores em 15 benchmarks
  • Principais resultados de benchmark

    • Conhecimento e raciocínio: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • Matemática: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • Código: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • Seguimento de instruções: IFEval 84.7
    • I-DLM-32B registrou desempenho superior ao LLaDA-2.1-flash (100B)

Throughput

  • Com tamanhos de batch de 1 a 64, alcança throughput 2,9 a 4,1 vezes maior que LLaDA-2.1-mini e SDAR
  • Em ambientes memory-bound, o TPF (Token Per Forward) aproxima o ganho real de velocidade
    • I-DLM(N=4, p=0.9): TPF≈2.9, eficiência 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, eficiência 0.31
  • Eficiência acima de 1 indica que a decodificação paralela reduz a quantidade total de computação em relação ao AR

Explorador de fator de aceleração

  • Taxa de aceitação p=0.9, overhead α=1.12 do R-ISD LoRA
  • Fórmulas aproximadas de ganho de velocidade:

    • Memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD (lossless): Speedup ≈ TPF/α
    • Gated LoRA é ativado apenas nas posições MASK, garantindo identidade bit a bit com a saída AR

Documentação e recursos

  • Todo o fluxo de instalação, treinamento, inferência, serving, R-ISD lossless, modelos e benchmarks é fornecido em documentação web
  • Installation

    • Clone o repositório GitHub e execute install.sh
  • Quick Start

    • Após iniciar o servidor SGLang, é possível solicitar chat completions pela API REST
  • Training

    • O treinamento combina sequências totalmente mascaradas com sequências limpas
    • 4.5B tokens, 8×H100 GPU, 2 epochs, currículo de stride (N=2→3)
  • Inference & ISD

    • Nas posições MASK, propõe novos tokens (q); nas posições limpas, faz a verificação (p)
    • O critério de aceitação min(1, p(x)/q(x)) garante a distribuição AR
    • Com stride N=4, TPF=2.96, cerca de 3x de aceleração
  • Serving (SGLang)

    • Paged KV cache**,** captura de grafo CUDA (+42~76%), stationary-batch decode loop (+11~21%), proposta por Argmax (+11~15%), kernel de atenção apenas Paged-only (+10~14%)

      • O sistema completo melhora o throughput em 2.1 a 2.5 vezes em relação ao baseline
  • Lossless R-ISD

    • Gated LoRA (rank=128) é aplicado apenas nas posições MASK
    • A saída é completamente idêntica à do modelo AR base
    • Overhead de cerca de 1.12x
  • Model Zoo

    • I-DLM-8B: baseado no Qwen3-8B, com qualidade equivalente à de AR
    • I-DLM-32B: baseado no Qwen3-32B, supera o LLaDA-2.1-flash (100B)
    • I-DLM-8B-LoRA: com Gated LoRA (rank=128) aplicado
  • Benchmarks

    • Avaliado em 15 benchmarks (conhecimento, matemática, código e seguimento de instruções)
    • Scripts de reprodução fornecidos

Informações de citação

  • Artigo: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • Instituições de pesquisa: Together AI, UIUC, Princeton, Stanford, UT Austin
  • Autores: Yifan Yu e mais 14 autores

Conclusão

  • I-DLM é o primeiro caso em que um modelo de linguagem baseado em difusão alcança simultaneamente qualidade e velocidade de modelos AR
  • Com treinamento de autoconsistência e decodificação ISD, supera as limitações da geração paralela
  • Sua compatibilidade com SGLang, aceleração lossless e alta escalabilidade de throughput demonstram viabilidade para implantação prática

1 comentários

 
GN⁺ 14 일 전
Comentários do Hacker News
  • Se entendi corretamente, esta é uma abordagem impressionante
    Eles pegaram um autoregressor Qwen, o modificaram com várias técnicas para funcionar como um diffuser e obtiveram desempenho muito superior ao dos diffusers existentes
    Com adaptadores LoRA, dá para alinhar a saída à distribuição do modelo base, o que permite obter resultados idênticos em nível de byte com a mesma seed, enquanto a velocidade fica quase duas vezes maior
    Não sou especialista, mais um experimentador entusiasmado, mas isso realmente parece um avanço muito interessante

    • Dá para ficar empolgado. Este artigo afirma ter construído uma ponte entre qualidade AR e decodificação paralela. Em especial, o modo auxiliar LoRA sem perda foi o que mais impressionou
    • Não entendo como é possível comparar sem gerar diretamente a saída do modelo base. Nesse caso, fico curioso sobre qual é o significado dessa comparação
    • Na verdade, isso parece mais uma variação de multi-token prediction e speculative decoding do que propriamente diffusion
      Não há processo de denoising, e a estrutura continua sendo causal
      Mais especificamente, o modelo é treinado para prever vários tokens de uma vez usando múltiplos tokens MASK, e na inferência isso é gerado em paralelo para aumentar a velocidade
      Por exemplo, depois de “what is 2+2”, adiciona-se 5 MASKs para prever de uma vez os próximos 5 tokens
      Isso permite fazer operações matrix-matrix em vez de matrix-vector, o que melhora a eficiência de memória
      Porém, quanto mais k (número de tokens previstos) aumenta, mais a qualidade cai rapidamente, e o próprio artigo mostra degradação já em k=8
      No fim, trata-se de self-speculative decoding baseado em previsão de 4 tokens; não elimina completamente as limitações existentes, mas é um método de treino interessante
      Há uma explicação relacionada neste post anterior
  • Fico curioso sobre como isso se diferencia de DFlash ou DDTree

  • No ano passado, cheguei a ver por um breve período as respostas do Gemini aparecerem gradualmente, como se fossem produzidas por diffusion
    Não sei se era um experimento ou apenas um efeito visual, mas foi algo interessante

  • Queria saber se alguém aqui está experimentando seriamente Diffusion para geração de texto

    • A Inception Labs parece pesquisar essa área há bastante tempo
      A velocidade é impressionante, mas a latência do primeiro token e a qualidade da saída ainda continuam como desafios
      Se velocidade e precisão subirem só mais um pouco, parece perfeitamente viável para modelos de baixo custo ou tarefas assíncronas
      Além disso, também seria interessante experimentar difundir textos mais longos de uma vez para forçar um aumento na capacidade de raciocínio
    • No momento, isso está sendo explorado no espaço de LLMs locais para speculative decoding
      Veja este post da Emergent Mind
    • Mercury 2 é muito atraente para experimentos de UX em termos de latência e preço
      Funciona de forma muito mais suave que o antigo Gemini Flash Lite, então é adequado para tarefas como autotagging ou geração de links
      Porém, ainda falta desempenho de chamada de ferramentas no nível do Haiku 3.5
      Para tarefas com entrada suficiente e saída curta, dLLM se encaixa bem, e também parece promissor em áreas como autocompletar em abas
    • Eu também experimentei, e ele exige uma abordagem intuitiva diferente da de LLMs comuns. Para certos problemas, encaixa muito bem
    • Estou implementando o WeDLM em Swift, mas o desempenho ainda é insuficiente
      Ele gera da esquerda para a direita, mas a diffusion acontece apenas dentro de uma janela deslizante. Como a janela tem algo em torno de 16 tokens, a diferença não é tão grande
  • Não sou especialista, mas se for Diffusion, não deveria gerar toda a saída de uma vez?
    No entanto, o modelo I-LDM parece usar o contexto anterior para gerar o próximo bloco

    • A geração por blocos traz um grande ganho de velocidade
      Por exemplo, gerar dois tokens por vez já pode trazer algo próximo de 2x de aceleração
      À medida que o tamanho do bloco aumenta, a velocidade total de geração sobe o bastante para não ficar tão diferente de gerar tudo de uma vez
      No fim, o importante é o quanto a perda de qualidade pode ser reduzida, e este artigo parece ter resolvido bem essa parte
  • Queria saber se, para usar esse modelo, é preciso migrar para sglang ou se o vLLM já oferece suporte

  • Há muito tempo penso que arquiteturas de diffusion baseadas em blocos são o futuro dos LLMs
    Uma estrutura capaz de ajustar dinamicamente a velocidade de geração e fazer autocorreção durante a geração — algo que poderia virar um sistema parecido com a memória de curto prazo humana
    Não conheço bem os princípios matemáticos, mas espero que a evolução siga nessa direção

  • Vi nas notas de lançamento:

    2025-04-12: Código aberto e lançamento do I-DLM-8B, 32B, 8B-LoRA
    A data parece antiga; fiquei em dúvida se seria uma versão desatualizada

    • É só um erro no ano. Confirmei que foi enviado ao HuggingFace há poucos dias
  • Queria saber se já é possível usar este modelo agora mesmo

  • Fico curioso se um modelo de diffusion poderia gerar um bloco, fazer uma autoavaliação (introspection) do resultado e então gerar de novo, como uma forma de raciocínio iterativo

    • Sim. Isso pode ser implementado realimentando a primeira saída no modelo para reavaliá-la, como em um modelo de raciocínio AR