Diffusion Forcing
Introdução ao Diffusion Forcing
- "Diffusion Forcing" é um nome derivado de "teacher forcing" e "diffusion models"
- O Diffusion Forcing pode aproveitar os principais pontos fortes tanto dos modelos de previsão do próximo token quanto dos modelos de difusão de sequência completa
- Com um único treinamento, ele pode operar com flexibilidade em diversos tempos de amostragem
Como o Diffusion Forcing funciona
- Treina a difusão de sequência, mas aplica um nível de ruído diferente a cada token
- O ruído da difusão pode ser visto como mascaramento em vários níveis
- No momento da amostragem, é possível obter um comportamento flexível usando diferentes níveis de ruído ao longo de toda a sequência
Previsão de vídeo
- A previsão de vídeo com Diffusion Forcing fornece resultados estáveis e consistentes
- Nos datasets DMLab e Minecraft, o Diffusion Forcing mostra desempenho superior aos métodos existentes
Estabilização de rollout infinito sem sliding window
- O Diffusion Forcing pode fazer rollout de vídeos muito mais longos do que o comprimento máximo de sequência usado no treinamento
- É possível fazer rollout de uma RNN sem sliding window
- Nos datasets DMLab e Minecraft, é possível fazer rollout por mais de 2000 frames
Diffusion Planning
- O Diffusion Forcing pode ser usado como planner com guidance no momento do teste
- Define cada token como [a_t, o_{t+1}] para modelar explicitamente a causalidade
- Pode ser atualizado com inferência posterior após a ocorrência de novas observações
Aprendizado por imitação de longo prazo
- Muitas tarefas do mundo real não têm propriedade de Markov e exigem memória de longo prazo
- Mostra resultados bem-sucedidos em uma tarefa em que um braço robótico troca dois slots de frutas
- O Diffusion Forcing pode operar de forma robusta diante de perturbações não vistas durante o teste
Opinião do GN⁺
- O Diffusion Forcing combina as vantagens dos modelos de previsão do próximo token e dos modelos de difusão de sequência completa, permitindo amostragem flexível
- Apresenta desempenho superior aos métodos existentes em previsão de vídeo e rollout, o que amplia seu potencial de aplicação prática
- O sucesso no aprendizado por imitação de longo prazo mostra a forte capacidade de controle por feedback do Diffusion Forcing
- Seu efeito de estabilização aumenta as possibilidades de uso em diferentes comprimentos de sequência
- Ao adotar essa nova tecnologia, é preciso considerar a complexidade do modelo e o custo computacional
1 comentários
Comentários do Hacker News
É proposta uma nova abordagem que combina a ideia de mascaramento de sequência com modelos de difusão
Fica a dúvida se alguém conhece pesquisas ou ferramentas que possam combinar LLMs existentes de geração de texto com técnicas de difusão sem novo pré-treinamento
Russ está pesquisando difusão; parece algo muito aplicável à robótica
Como alguém que trabalha nessa área, a pesquisa foi apresentada de forma muito obscura
Fica a dúvida se algo sobre o tempo de treinamento passou batido; adicionar ruído por token deixa o treinamento muito mais lento?
Pesquisa muito legal, mas fica a dúvida sobre por que isso é chamado de "Diffusion Forcing"