Princípios dos modelos de difusão

(arxiv.org)

4 pontos por GN⁺ 2025-11-11 | 1 comentários | Compartilhar no WhatsApp

Modelos de difusão definem um processo em que os dados se transformam gradualmente em ruído e, em seguida, os restauram no sentido inverso para gerar dados a partir do ruído, formando uma arquitetura de modelo generativo
O núcleo do modelo é aprender um campo de velocidade (velocity field) que varia ao longo do tempo, compondo um caminho gerativo contínuo que transforma uma distribuição simples na distribuição dos dados
Há três perspectivas principais: variacional (variational), baseada em score (score-based) e baseada em fluxo (flow-based), cada uma explicando o processo em termos de remoção de ruído, aprendizado do gradiente de probabilidade e transformação contínua
Sobre essa base, discutem-se extensões de pesquisa como geração controlável, amostragem eficiente e mapeamento direto entre tempos (flow-map)
Destaca-se sua importância como texto teórico fundamental para compreender de forma integrada os princípios matemáticos e as diferentes formalizações dos modelos de difusão

Conceitos básicos dos modelos de difusão

Modelos de difusão são compostos por um processo direto (forward process) que contamina gradualmente os dados com ruído e por um processo reverso (reverse process) que restaura esse estado para gerar dados a partir do ruído
- O processo direto define um conjunto contínuo de distribuições intermediárias que conecta a distribuição dos dados a uma distribuição simples de ruído
- O processo reverso reconstrói as mesmas distribuições intermediárias, convertendo ruído em dados
O objetivo do modelo é aprender esse processo reverso para reproduzir o caminho de transformação do ruído para os dados

Três perspectivas matemáticas

Perspectiva variacional (Variational View)
- Inspirada no variational autoencoder (VAE), aprende um objetivo local de restauração (denoising objective) que remove o ruído gradualmente
- A restauração em cada etapa se acumula e, no conjunto, transforma ruído em dados
Publicidade
Perspectiva baseada em score (Score-Based View)
- Tem raízes nos energy-based models (EBM) e aprende o gradiente da distribuição dos dados (gradient)
- Calcula a direção que move amostras para regiões de maior probabilidade
Perspectiva baseada em fluxo (Flow-Based View)
- De forma semelhante aos normalizing flows, interpreta o processo de geração como um caminho contínuo que se move do ruído aos dados seguindo um campo de velocidade (velocity field)

Estrutura comum e base matemática

As três perspectivas têm em comum o fato de aprender um campo de velocidade dependente do tempo (time-dependent velocity field)
- Esse campo de velocidade atua transportando uma distribuição a priori simples (prior) para a distribuição dos dados
- A amostragem é expressa como o processo de converter ruído em dados ao resolver uma equação diferencial (differential equation)
Sobre essa estrutura matemática, discutem-se técnicas de análise numérica para amostragem eficiente, geração controlável (guidance) e mapeamento direto entre instantes arbitrários (flow-map)

Público-alvo e objetivo

Os leitores são pesquisadores, pós-graduandos e profissionais com conhecimentos básicos de deep learning e modelagem generativa
O objetivo é permitir uma compreensão clara dos fundamentos teóricos dos modelos de difusão e das relações entre suas diferentes formalizações
Com isso, oferece uma base para aplicar modelos existentes com confiança e explorar novas direções de pesquisa

Prefácio e visão geral da estrutura

Os modelos de difusão se consolidaram como um paradigma generativo central em áreas como machine learning, visão computacional e processamento de linguagem natural
Esta obra organiza uma vasta literatura de pesquisa sob os aspectos de princípios teóricos, objetivos de treinamento, projeto de samplers e ideias matemáticas
Estrutura principal
- Part A & B: organização dos fundamentos dos modelos de difusão e das origens e relações entre as três perspectivas
- Os capítulos posteriores discutem amostragem eficiente, geração controlável e a expansão para modelos generativos independentes
Cada capítulo pode ser lido de forma seletiva, e leitores já familiarizados com os conceitos básicos podem pular as introduções relacionadas a VAE, EBM e Normalizing Flow

Agradecimentos

O professor Dohyun Kwon, da University of Seoul e do KIAS, revisou parte do Capítulo 7 e contribuiu para a precisão matemática e o aprimoramento da redação
Seu feedback e suas discussões ajudaram a melhorar a qualidade do manuscrito final

1 comentários

GN⁺ 2025-11-11

Opiniões no Hacker News

Se você prefere aprender por vídeo, recomendo as aulas CS236 Deep Generative Models do Stefano Ermon
Todas as aulas podem ser vistas na playlist do YouTube, e o material do curso está organizado no site oficial
- É uma pena que Stanford não ofereça mais essa disciplina CS236. Já faz 2 anos que ela não é aberta
Fico na dúvida se este post não é uma republicação duplicada de um post que enviei alguns dias atrás
Link do post anterior
- Sim, é duplicado, mas em alguns casos isso é permitido
  Segundo o FAQ do HN, posts que não receberam atenção por mais de 1 ano podem ser republicados em pequena escala
  Além disso, perguntas sobre moderação devem ser enviadas para hn@ycombinator.com, e não pelos comentários
Procurei por "Fokker-Planck" no documento e apareceu 97 vezes
Acho que isso já basta para valer a leitura
- Mas para mim só aparecem 26 ocorrências. Qual é o critério? Isso me fez rir :D
Fiquei curioso se existe algum material sobre transformer que cubra esse nível de escopo e profundidade
Tem matemática demais, para ser sincero isso assusta um pouco
- Fazendo a piada de que não seria “scared”, mas “scated”
Lendo este texto, fico com a impressão de que a IA atual, na prática, está mais para brute force do que para algo realmente inteligente
Talvez o cérebro humano também seja uma máquina que faz brute-force ao longo da vida inteira
Ainda assim, a inteligência artificial acaba parecendo, como aromatizante artificial, um resultado sem alma
- Dá até a impressão de que você é físico. Acho que há uma certa beleza no processo de executar o RG flow ao contrário
  O poder da estatística se baseia em estrutura profunda e seleção
- Dizer “sempre” é categórico demais. Talvez um dia isso melhore
- Acho que a inteligência é a variedade (manifold) que esses algoritmos de brute-force aprendem
  Os humanos não fazem brute-force ao longo da vida, mas a evolução construiu essa estrutura ao longo de bilhões de anos
  e comprimiu nela, ao longo de milhões de anos, um algoritmo de meta-aprendizado
470 páginas?! É coisa demais, deu até um tilt mental por um instante 😆

Princípios dos modelos de difusão

Conceitos básicos dos modelos de difusão

Três perspectivas matemáticas

Estrutura comum e base matemática

Público-alvo e objetivo

Prefácio e visão geral da estrutura

Agradecimentos

Leituras relacionadas

1 comentários

Opiniões no Hacker News