1 pontos por GN⁺ 2024-07-06 | 1 comentários | Compartilhar no WhatsApp

Diffusion Forcing

Introdução ao Diffusion Forcing

  • "Diffusion Forcing" é um nome derivado de "teacher forcing" e "diffusion models"
  • O Diffusion Forcing pode aproveitar os principais pontos fortes tanto dos modelos de previsão do próximo token quanto dos modelos de difusão de sequência completa
  • Com um único treinamento, ele pode operar com flexibilidade em diversos tempos de amostragem

Como o Diffusion Forcing funciona

  • Treina a difusão de sequência, mas aplica um nível de ruído diferente a cada token
  • O ruído da difusão pode ser visto como mascaramento em vários níveis
  • No momento da amostragem, é possível obter um comportamento flexível usando diferentes níveis de ruído ao longo de toda a sequência

Previsão de vídeo

  • A previsão de vídeo com Diffusion Forcing fornece resultados estáveis e consistentes
  • Nos datasets DMLab e Minecraft, o Diffusion Forcing mostra desempenho superior aos métodos existentes

Estabilização de rollout infinito sem sliding window

  • O Diffusion Forcing pode fazer rollout de vídeos muito mais longos do que o comprimento máximo de sequência usado no treinamento
  • É possível fazer rollout de uma RNN sem sliding window
  • Nos datasets DMLab e Minecraft, é possível fazer rollout por mais de 2000 frames

Diffusion Planning

  • O Diffusion Forcing pode ser usado como planner com guidance no momento do teste
  • Define cada token como [a_t, o_{t+1}] para modelar explicitamente a causalidade
  • Pode ser atualizado com inferência posterior após a ocorrência de novas observações

Aprendizado por imitação de longo prazo

  • Muitas tarefas do mundo real não têm propriedade de Markov e exigem memória de longo prazo
  • Mostra resultados bem-sucedidos em uma tarefa em que um braço robótico troca dois slots de frutas
  • O Diffusion Forcing pode operar de forma robusta diante de perturbações não vistas durante o teste

Opinião do GN⁺

  • O Diffusion Forcing combina as vantagens dos modelos de previsão do próximo token e dos modelos de difusão de sequência completa, permitindo amostragem flexível
  • Apresenta desempenho superior aos métodos existentes em previsão de vídeo e rollout, o que amplia seu potencial de aplicação prática
  • O sucesso no aprendizado por imitação de longo prazo mostra a forte capacidade de controle por feedback do Diffusion Forcing
  • Seu efeito de estabilização aumenta as possibilidades de uso em diferentes comprimentos de sequência
  • Ao adotar essa nova tecnologia, é preciso considerar a complexidade do modelo e o custo computacional

1 comentários

 
GN⁺ 2024-07-06
Comentários do Hacker News
  • É proposta uma nova abordagem que combina a ideia de mascaramento de sequência com modelos de difusão

    • Acompanha o nível de "incerteza" de cada pixel e o usa como nível de "ruído" do modelo de difusão
    • Permite determinar primeiro partes específicas da imagem, o que pode ser usado para resolver labirintos
    • Também foi usado para controlar um braço robótico
    • O título subestima a ideia; isto é uma forma de fazer "mascaramento fracionário"
    • Há muita curiosidade sobre a base de código; como configuram a tarefa de rastreamento de labirinto e a de extensão de vídeo, como conectam o braço robótico etc.
    • A arquitetura em si precisa de mais pesquisa e explicação
  • Fica a dúvida se alguém conhece pesquisas ou ferramentas que possam combinar LLMs existentes de geração de texto com técnicas de difusão sem novo pré-treinamento

    • Existem abordagens parecidas como Tree of Thoughts e MCTS, mas a busca é por algo mais próximo da geração em nível de token
    • Fica a dúvida se isso pode funcionar com modelos pequenos GPT / Phi 3 / Gwen
  • Russ está pesquisando difusão; parece algo muito aplicável à robótica

  • Como alguém que trabalha nessa área, a pesquisa foi apresentada de forma muito obscura

    • Fica a dúvida sobre qual problema estão tentando resolver e se estão propondo um novo modelo generativo
  • Fica a dúvida se algo sobre o tempo de treinamento passou batido; adicionar ruído por token deixa o treinamento muito mais lento?

    • Artigo muito legal
  • Pesquisa muito legal, mas fica a dúvida sobre por que isso é chamado de "Diffusion Forcing"