I-DLM - Modelo de Linguagem por Difusão Introspectiva (Introspective Diffusion Language Models)

(introspective-diffusion.github.io)

1 pontos por GN⁺ 14 일 전 | 1 comentários | Compartilhar no WhatsApp

I-DLM é o primeiro caso em que um modelo de linguagem baseado em difusão alcança ao mesmo tempo qualidade no nível de modelos AR (Autoregressive) e velocidade de geração paralela
Com Introspective Strided Decoding (ISD), ele executa geração de novos tokens e verificação de tokens anteriores em um único forward pass
I-DLM-8B usa metade dos parâmetros do LLaDA-2.1-mini (16B) e ainda melhora +26 pontos no AIME-24 e +15 pontos no LiveCodeBench-v6
Com Gated LoRA, implementa aceleração lossless em nível de bit, com compatibilidade total com a infraestrutura SGLang
O modelo mostra que modelos de linguagem por difusão podem ser implantados em larga escala de forma prática por meio de treinamento com autoconsistência e otimização de decodificação paralela

Visão geral

I-DLM (Introspective Diffusion Language Model) é um modelo que mantém a capacidade de geração paralela de tokens dos modelos de linguagem por difusão (DLM) existentes, ao mesmo tempo em que resolve o problema de autoconsistência introspectiva (introspective consistency) para atingir qualidade no nível de modelos AR
Com Introspective Strided Decoding (ISD), ele gera novos tokens e verifica tokens anteriores em um único forward pass
I-DLM-8B é o primeiro DLM a alcançar a mesma qualidade de modelos AR de porte equivalente; com metade dos parâmetros do LLaDA-2.1-mini (16B), ele melhora +26 pontos no AIME-24 e +15 pontos no LiveCodeBench-v6
Em ambientes de alta concorrência (C=64), atinge 2,9 a 4,1 vezes mais throughput, e oferece aceleração lossless em nível de bit via Gated LoRA

Por que a Introspective Consistency é necessária

Modelos AR executam geração e autoverificação simultaneamente em um único forward pass, enquanto os DLMs existentes aprendem apenas denoising, o que resulta em falta de autoconsistência
Três gargalos dos DLMs existentes
- Baixa autoconsistência: SDAR 0.699 vs I-DLM 0.984
- Computação ineficiente: TiDAR com cerca de 7.8x de overhead vs I-DLM com cerca de 2.5x
- Desalinhamento de infraestrutura: SDAR slope=84 vs I-DLM=549

Metodologia do I-DLM

Treinamento com Introspective Consistency
- Um modelo AR pré-treinado é convertido por meio de causal attention, logit shift e da função objetivo all-masked
Introspective Strided Decoding (ISD)
- Em um único forward pass, realiza em paralelo a geração de N tokens e a verificação de tokens anteriores
- Usa o critério de aceitação p/q (acceptance criterion) para validar o resultado da geração
Serving compatível com AR
- Com uma estrutura estrita de causal attention, pode ser integrado diretamente à infraestrutura SGLang
- Funciona no mesmo ambiente de serving de modelos AR, sem necessidade de infraestrutura customizada separada

Resultados de desempenho

O I-DLM é o primeiro DLM com qualidade equivalente à de modelos AR do mesmo porte, superando os DLMs anteriores em 15 benchmarks
Principais resultados de benchmark
- Conhecimento e raciocínio: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Matemática: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Código: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Seguimento de instruções: IFEval 84.7
- I-DLM-32B registrou desempenho superior ao LLaDA-2.1-flash (100B)

Throughput

Com tamanhos de batch de 1 a 64, alcança throughput 2,9 a 4,1 vezes maior que LLaDA-2.1-mini e SDAR
Em ambientes memory-bound, o TPF (Token Per Forward) aproxima o ganho real de velocidade
- I-DLM(N=4, p=0.9): TPF≈2.9, eficiência 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, eficiência 0.31
Eficiência acima de 1 indica que a decodificação paralela reduz a quantidade total de computação em relação ao AR

Explorador de fator de aceleração

Taxa de aceitação p=0.9, overhead α=1.12 do R-ISD LoRA
Fórmulas aproximadas de ganho de velocidade:
- Memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD (lossless): Speedup ≈ TPF/α
- Gated LoRA é ativado apenas nas posições MASK, garantindo identidade bit a bit com a saída AR

Documentação e recursos

Todo o fluxo de instalação, treinamento, inferência, serving, R-ISD lossless, modelos e benchmarks é fornecido em documentação web
Installation
- Clone o repositório GitHub e execute install.sh
Quick Start
- Após iniciar o servidor SGLang, é possível solicitar chat completions pela API REST
Training
- O treinamento combina sequências totalmente mascaradas com sequências limpas
- 4.5B tokens, 8×H100 GPU, 2 epochs, currículo de stride (N=2→3)
Inference & ISD
- Nas posições MASK, propõe novos tokens (q); nas posições limpas, faz a verificação (p)
- O critério de aceitação min(1, p(x)/q(x)) garante a distribuição AR
- Com stride N=4, TPF=2.96, cerca de 3x de aceleração
Serving (SGLang)
- Paged KV cache**,** captura de grafo CUDA (+42~76%), stationary-batch decode loop (+11~21%), proposta por Argmax (+11~15%), kernel de atenção apenas Paged-only (+10~14%)
  - O sistema completo melhora o throughput em 2.1 a 2.5 vezes em relação ao baseline
Lossless R-ISD
- Gated LoRA (rank=128) é aplicado apenas nas posições MASK
- A saída é completamente idêntica à do modelo AR base
- Overhead de cerca de 1.12x
Model Zoo
- I-DLM-8B: baseado no Qwen3-8B, com qualidade equivalente à de AR
- I-DLM-32B: baseado no Qwen3-32B, supera o LLaDA-2.1-flash (100B)
- I-DLM-8B-LoRA: com Gated LoRA (rank=128) aplicado
Benchmarks
- Avaliado em 15 benchmarks (conhecimento, matemática, código e seguimento de instruções)
- Scripts de reprodução fornecidos

Informações de citação

Artigo: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
Instituições de pesquisa: Together AI, UIUC, Princeton, Stanford, UT Austin
Autores: Yifan Yu e mais 14 autores

Conclusão

I-DLM é o primeiro caso em que um modelo de linguagem baseado em difusão alcança simultaneamente qualidade e velocidade de modelos AR
Com treinamento de autoconsistência e decodificação ISD, supera as limitações da geração paralela
Sua compatibilidade com SGLang, aceleração lossless e alta escalabilidade de throughput demonstram viabilidade para implantação prática

1 comentários

GN⁺ 14 일 전

Comentários do Hacker News

Se entendi corretamente, esta é uma abordagem impressionante
Eles pegaram um autoregressor Qwen, o modificaram com várias técnicas para funcionar como um diffuser e obtiveram desempenho muito superior ao dos diffusers existentes
Com adaptadores LoRA, dá para alinhar a saída à distribuição do modelo base, o que permite obter resultados idênticos em nível de byte com a mesma seed, enquanto a velocidade fica quase duas vezes maior
Não sou especialista, mais um experimentador entusiasmado, mas isso realmente parece um avanço muito interessante
- Dá para ficar empolgado. Este artigo afirma ter construído uma ponte entre qualidade AR e decodificação paralela. Em especial, o modo auxiliar LoRA sem perda foi o que mais impressionou
- Não entendo como é possível comparar sem gerar diretamente a saída do modelo base. Nesse caso, fico curioso sobre qual é o significado dessa comparação
- Na verdade, isso parece mais uma variação de multi-token prediction e speculative decoding do que propriamente diffusion
  Não há processo de denoising, e a estrutura continua sendo causal
  Mais especificamente, o modelo é treinado para prever vários tokens de uma vez usando múltiplos tokens MASK, e na inferência isso é gerado em paralelo para aumentar a velocidade
  Por exemplo, depois de “what is 2+2”, adiciona-se 5 MASKs para prever de uma vez os próximos 5 tokens
  Isso permite fazer operações matrix-matrix em vez de matrix-vector, o que melhora a eficiência de memória
  Porém, quanto mais k (número de tokens previstos) aumenta, mais a qualidade cai rapidamente, e o próprio artigo mostra degradação já em k=8
  No fim, trata-se de self-speculative decoding baseado em previsão de 4 tokens; não elimina completamente as limitações existentes, mas é um método de treino interessante
  Há uma explicação relacionada neste post anterior
Fico curioso sobre como isso se diferencia de DFlash ou DDTree
No ano passado, cheguei a ver por um breve período as respostas do Gemini aparecerem gradualmente, como se fossem produzidas por diffusion
Não sei se era um experimento ou apenas um efeito visual, mas foi algo interessante
Queria saber se alguém aqui está experimentando seriamente Diffusion para geração de texto
- A Inception Labs parece pesquisar essa área há bastante tempo
  A velocidade é impressionante, mas a latência do primeiro token e a qualidade da saída ainda continuam como desafios
  Se velocidade e precisão subirem só mais um pouco, parece perfeitamente viável para modelos de baixo custo ou tarefas assíncronas
  Além disso, também seria interessante experimentar difundir textos mais longos de uma vez para forçar um aumento na capacidade de raciocínio
- No momento, isso está sendo explorado no espaço de LLMs locais para speculative decoding
  Veja este post da Emergent Mind
- Mercury 2 é muito atraente para experimentos de UX em termos de latência e preço
  Funciona de forma muito mais suave que o antigo Gemini Flash Lite, então é adequado para tarefas como autotagging ou geração de links
  Porém, ainda falta desempenho de chamada de ferramentas no nível do Haiku 3.5
  Para tarefas com entrada suficiente e saída curta, dLLM se encaixa bem, e também parece promissor em áreas como autocompletar em abas
- Eu também experimentei, e ele exige uma abordagem intuitiva diferente da de LLMs comuns. Para certos problemas, encaixa muito bem
- Estou implementando o WeDLM em Swift, mas o desempenho ainda é insuficiente
  Ele gera da esquerda para a direita, mas a diffusion acontece apenas dentro de uma janela deslizante. Como a janela tem algo em torno de 16 tokens, a diferença não é tão grande
Não sou especialista, mas se for Diffusion, não deveria gerar toda a saída de uma vez?
No entanto, o modelo I-LDM parece usar o contexto anterior para gerar o próximo bloco
- A geração por blocos traz um grande ganho de velocidade
  Por exemplo, gerar dois tokens por vez já pode trazer algo próximo de 2x de aceleração
  À medida que o tamanho do bloco aumenta, a velocidade total de geração sobe o bastante para não ficar tão diferente de gerar tudo de uma vez
  No fim, o importante é o quanto a perda de qualidade pode ser reduzida, e este artigo parece ter resolvido bem essa parte
Queria saber se, para usar esse modelo, é preciso migrar para sglang ou se o vLLM já oferece suporte
Há muito tempo penso que arquiteturas de diffusion baseadas em blocos são o futuro dos LLMs
Uma estrutura capaz de ajustar dinamicamente a velocidade de geração e fazer autocorreção durante a geração — algo que poderia virar um sistema parecido com a memória de curto prazo humana
Não conheço bem os princípios matemáticos, mas espero que a evolução siga nessa direção
Vi nas notas de lançamento:

2025-04-12: Código aberto e lançamento do I-DLM-8B, 32B, 8B-LoRA
A data parece antiga; fiquei em dúvida se seria uma versão desatualizada
- É só um erro no ano. Confirmei que foi enviado ao HuggingFace há poucos dias
Queria saber se já é possível usar este modelo agora mesmo
Fico curioso se um modelo de diffusion poderia gerar um bloco, fazer uma autoavaliação (introspection) do resultado e então gerar de novo, como uma forma de raciocínio iterativo
- Sim. Isso pode ser implementado realimentando a primeira saída no modelo para reavaliá-la, como em um modelo de raciocínio AR

I-DLM - Modelo de Linguagem por Difusão Introspectiva (Introspective Diffusion Language Models)

Visão geral

Por que a Introspective Consistency é necessária

Metodologia do I-DLM

Treinamento com Introspective Consistency

Introspective Strided Decoding (ISD)

Serving compatível com AR

Resultados de desempenho

Principais resultados de benchmark

Throughput

Explorador de fator de aceleração

Fórmulas aproximadas de ganho de velocidade:

Documentação e recursos

Installation

Quick Start

Training

Inference & ISD

Serving (SGLang)

Paged KV cache**,** captura de grafo CUDA (+42~76%), stationary-batch decode loop (+11~21%), proposta por Argmax (+11~15%), kernel de atenção apenas Paged-only (+10~14%)

Lossless R-ISD

Model Zoo

Benchmarks

Informações de citação

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News

Paged KV cache, captura de grafo CUDA (+42~76%), stationary-batch decode loop (+11~21%), proposta por Argmax (+11~15%), kernel de atenção apenas Paged-only (+10~14%)