4 pontos por GN⁺ 2025-11-11 | 1 comentários | Compartilhar no WhatsApp
  • Modelos de difusão definem um processo em que os dados se transformam gradualmente em ruído e, em seguida, os restauram no sentido inverso para gerar dados a partir do ruído, formando uma arquitetura de modelo generativo
  • O núcleo do modelo é aprender um campo de velocidade (velocity field) que varia ao longo do tempo, compondo um caminho gerativo contínuo que transforma uma distribuição simples na distribuição dos dados
  • Há três perspectivas principais: variacional (variational), baseada em score (score-based) e baseada em fluxo (flow-based), cada uma explicando o processo em termos de remoção de ruído, aprendizado do gradiente de probabilidade e transformação contínua
  • Sobre essa base, discutem-se extensões de pesquisa como geração controlável, amostragem eficiente e mapeamento direto entre tempos (flow-map)
  • Destaca-se sua importância como texto teórico fundamental para compreender de forma integrada os princípios matemáticos e as diferentes formalizações dos modelos de difusão

Conceitos básicos dos modelos de difusão

  • Modelos de difusão são compostos por um processo direto (forward process) que contamina gradualmente os dados com ruído e por um processo reverso (reverse process) que restaura esse estado para gerar dados a partir do ruído
    • O processo direto define um conjunto contínuo de distribuições intermediárias que conecta a distribuição dos dados a uma distribuição simples de ruído
    • O processo reverso reconstrói as mesmas distribuições intermediárias, convertendo ruído em dados
  • O objetivo do modelo é aprender esse processo reverso para reproduzir o caminho de transformação do ruído para os dados

Três perspectivas matemáticas

  • Perspectiva variacional (Variational View)
    • Inspirada no variational autoencoder (VAE), aprende um objetivo local de restauração (denoising objective) que remove o ruído gradualmente
    • A restauração em cada etapa se acumula e, no conjunto, transforma ruído em dados
  • Perspectiva baseada em score (Score-Based View)
    • Tem raízes nos energy-based models (EBM) e aprende o gradiente da distribuição dos dados (gradient)
    • Calcula a direção que move amostras para regiões de maior probabilidade
  • Perspectiva baseada em fluxo (Flow-Based View)
    • De forma semelhante aos normalizing flows, interpreta o processo de geração como um caminho contínuo que se move do ruído aos dados seguindo um campo de velocidade (velocity field)

Estrutura comum e base matemática

  • As três perspectivas têm em comum o fato de aprender um campo de velocidade dependente do tempo (time-dependent velocity field)
    • Esse campo de velocidade atua transportando uma distribuição a priori simples (prior) para a distribuição dos dados
    • A amostragem é expressa como o processo de converter ruído em dados ao resolver uma equação diferencial (differential equation)
  • Sobre essa estrutura matemática, discutem-se técnicas de análise numérica para amostragem eficiente, geração controlável (guidance) e mapeamento direto entre instantes arbitrários (flow-map)

Público-alvo e objetivo

  • Os leitores são pesquisadores, pós-graduandos e profissionais com conhecimentos básicos de deep learning e modelagem generativa
  • O objetivo é permitir uma compreensão clara dos fundamentos teóricos dos modelos de difusão e das relações entre suas diferentes formalizações
  • Com isso, oferece uma base para aplicar modelos existentes com confiança e explorar novas direções de pesquisa

Prefácio e visão geral da estrutura

  • Os modelos de difusão se consolidaram como um paradigma generativo central em áreas como machine learning, visão computacional e processamento de linguagem natural
  • Esta obra organiza uma vasta literatura de pesquisa sob os aspectos de princípios teóricos, objetivos de treinamento, projeto de samplers e ideias matemáticas
  • Estrutura principal
    • Part A & B: organização dos fundamentos dos modelos de difusão e das origens e relações entre as três perspectivas
    • Os capítulos posteriores discutem amostragem eficiente, geração controlável e a expansão para modelos generativos independentes
  • Cada capítulo pode ser lido de forma seletiva, e leitores já familiarizados com os conceitos básicos podem pular as introduções relacionadas a VAE, EBM e Normalizing Flow

Agradecimentos

  • O professor Dohyun Kwon, da University of Seoul e do KIAS, revisou parte do Capítulo 7 e contribuiu para a precisão matemática e o aprimoramento da redação
  • Seu feedback e suas discussões ajudaram a melhorar a qualidade do manuscrito final

1 comentários

 
GN⁺ 2025-11-11
Opiniões no Hacker News
  • Se você prefere aprender por vídeo, recomendo as aulas CS236 Deep Generative Models do Stefano Ermon
    Todas as aulas podem ser vistas na playlist do YouTube, e o material do curso está organizado no site oficial

    • É uma pena que Stanford não ofereça mais essa disciplina CS236. Já faz 2 anos que ela não é aberta
  • Fico na dúvida se este post não é uma republicação duplicada de um post que enviei alguns dias atrás
    Link do post anterior

    • Sim, é duplicado, mas em alguns casos isso é permitido
      Segundo o FAQ do HN, posts que não receberam atenção por mais de 1 ano podem ser republicados em pequena escala
      Além disso, perguntas sobre moderação devem ser enviadas para hn@ycombinator.com, e não pelos comentários
  • Procurei por "Fokker-Planck" no documento e apareceu 97 vezes
    Acho que isso já basta para valer a leitura

    • Mas para mim só aparecem 26 ocorrências. Qual é o critério? Isso me fez rir :D
  • Fiquei curioso se existe algum material sobre transformer que cubra esse nível de escopo e profundidade

  • Tem matemática demais, para ser sincero isso assusta um pouco

    • Fazendo a piada de que não seria “scared”, mas “scated”
  • Lendo este texto, fico com a impressão de que a IA atual, na prática, está mais para brute force do que para algo realmente inteligente
    Talvez o cérebro humano também seja uma máquina que faz brute-force ao longo da vida inteira
    Ainda assim, a inteligência artificial acaba parecendo, como aromatizante artificial, um resultado sem alma

    • Dá até a impressão de que você é físico. Acho que há uma certa beleza no processo de executar o RG flow ao contrário
      O poder da estatística se baseia em estrutura profunda e seleção
    • Dizer “sempre” é categórico demais. Talvez um dia isso melhore
    • Acho que a inteligência é a variedade (manifold) que esses algoritmos de brute-force aprendem
      Os humanos não fazem brute-force ao longo da vida, mas a evolução construiu essa estrutura ao longo de bilhões de anos
      e comprimiu nela, ao longo de milhões de anos, um algoritmo de meta-aprendizado
  • 470 páginas?! É coisa demais, deu até um tilt mental por um instante 😆