- Modelos de difusão definem um processo em que os dados se transformam gradualmente em ruído e, em seguida, os restauram no sentido inverso para gerar dados a partir do ruído, formando uma arquitetura de modelo generativo
- O núcleo do modelo é aprender um campo de velocidade (velocity field) que varia ao longo do tempo, compondo um caminho gerativo contínuo que transforma uma distribuição simples na distribuição dos dados
- Há três perspectivas principais: variacional (variational), baseada em score (score-based) e baseada em fluxo (flow-based), cada uma explicando o processo em termos de remoção de ruído, aprendizado do gradiente de probabilidade e transformação contínua
- Sobre essa base, discutem-se extensões de pesquisa como geração controlável, amostragem eficiente e mapeamento direto entre tempos (flow-map)
- Destaca-se sua importância como texto teórico fundamental para compreender de forma integrada os princípios matemáticos e as diferentes formalizações dos modelos de difusão
Conceitos básicos dos modelos de difusão
- Modelos de difusão são compostos por um processo direto (forward process) que contamina gradualmente os dados com ruído e por um processo reverso (reverse process) que restaura esse estado para gerar dados a partir do ruído
- O processo direto define um conjunto contínuo de distribuições intermediárias que conecta a distribuição dos dados a uma distribuição simples de ruído
- O processo reverso reconstrói as mesmas distribuições intermediárias, convertendo ruído em dados
- O objetivo do modelo é aprender esse processo reverso para reproduzir o caminho de transformação do ruído para os dados
Três perspectivas matemáticas
- Perspectiva variacional (Variational View)
- Inspirada no variational autoencoder (VAE), aprende um objetivo local de restauração (denoising objective) que remove o ruído gradualmente
- A restauração em cada etapa se acumula e, no conjunto, transforma ruído em dados
- Perspectiva baseada em score (Score-Based View)
- Tem raízes nos energy-based models (EBM) e aprende o gradiente da distribuição dos dados (gradient)
- Calcula a direção que move amostras para regiões de maior probabilidade
- Perspectiva baseada em fluxo (Flow-Based View)
- De forma semelhante aos normalizing flows, interpreta o processo de geração como um caminho contínuo que se move do ruído aos dados seguindo um campo de velocidade (velocity field)
Estrutura comum e base matemática
- As três perspectivas têm em comum o fato de aprender um campo de velocidade dependente do tempo (time-dependent velocity field)
- Esse campo de velocidade atua transportando uma distribuição a priori simples (prior) para a distribuição dos dados
- A amostragem é expressa como o processo de converter ruído em dados ao resolver uma equação diferencial (differential equation)
- Sobre essa estrutura matemática, discutem-se técnicas de análise numérica para amostragem eficiente, geração controlável (guidance) e mapeamento direto entre instantes arbitrários (flow-map)
Público-alvo e objetivo
- Os leitores são pesquisadores, pós-graduandos e profissionais com conhecimentos básicos de deep learning e modelagem generativa
- O objetivo é permitir uma compreensão clara dos fundamentos teóricos dos modelos de difusão e das relações entre suas diferentes formalizações
- Com isso, oferece uma base para aplicar modelos existentes com confiança e explorar novas direções de pesquisa
Prefácio e visão geral da estrutura
- Os modelos de difusão se consolidaram como um paradigma generativo central em áreas como machine learning, visão computacional e processamento de linguagem natural
- Esta obra organiza uma vasta literatura de pesquisa sob os aspectos de princípios teóricos, objetivos de treinamento, projeto de samplers e ideias matemáticas
- Estrutura principal
- Part A & B: organização dos fundamentos dos modelos de difusão e das origens e relações entre as três perspectivas
- Os capítulos posteriores discutem amostragem eficiente, geração controlável e a expansão para modelos generativos independentes
- Cada capítulo pode ser lido de forma seletiva, e leitores já familiarizados com os conceitos básicos podem pular as introduções relacionadas a VAE, EBM e Normalizing Flow
Agradecimentos
- O professor Dohyun Kwon, da University of Seoul e do KIAS, revisou parte do Capítulo 7 e contribuiu para a precisão matemática e o aprimoramento da redação
- Seu feedback e suas discussões ajudaram a melhorar a qualidade do manuscrito final
1 comentários
Opiniões no Hacker News
Se você prefere aprender por vídeo, recomendo as aulas CS236 Deep Generative Models do Stefano Ermon
Todas as aulas podem ser vistas na playlist do YouTube, e o material do curso está organizado no site oficial
Fico na dúvida se este post não é uma republicação duplicada de um post que enviei alguns dias atrás
Link do post anterior
Segundo o FAQ do HN, posts que não receberam atenção por mais de 1 ano podem ser republicados em pequena escala
Além disso, perguntas sobre moderação devem ser enviadas para hn@ycombinator.com, e não pelos comentários
Procurei por "Fokker-Planck" no documento e apareceu 97 vezes
Acho que isso já basta para valer a leitura
Fiquei curioso se existe algum material sobre transformer que cubra esse nível de escopo e profundidade
Tem matemática demais, para ser sincero isso assusta um pouco
Lendo este texto, fico com a impressão de que a IA atual, na prática, está mais para brute force do que para algo realmente inteligente
Talvez o cérebro humano também seja uma máquina que faz brute-force ao longo da vida inteira
Ainda assim, a inteligência artificial acaba parecendo, como aromatizante artificial, um resultado sem alma
O poder da estatística se baseia em estrutura profunda e seleção
Os humanos não fazem brute-force ao longo da vida, mas a evolução construiu essa estrutura ao longo de bilhões de anos
e comprimiu nela, ao longo de milhões de anos, um algoritmo de meta-aprendizado
470 páginas?! É coisa demais, deu até um tilt mental por um instante 😆