1 pontos por GN⁺ 2024-10-14 | 1 comentários | Compartilhar no WhatsApp

Visão geral do DIAMOND 💎

  • DIAMOND é um agente de aprendizado por reforço treinado em um modelo de mundo por diffusion.
  • Esse modelo trata os detalhes visuais como algo importante em ambientes de jogos como Atari.
  • O DIAMOND também consegue simular ambientes 3D, por exemplo CounterStrike: Global Offensive (CSGO).

Contexto e motivação da pesquisa

  • Modelos de mundo são uma abordagem promissora para treinar agentes de aprendizado por reforço com segurança e eficiência.
  • Os modelos de mundo existentes modelam principalmente a dinâmica do ambiente usando sequências de variáveis latentes discretas.
  • Porém, essa compressão pode ignorar detalhes visuais importantes para o aprendizado por reforço.
  • Modelos de diffusion se consolidaram como a abordagem dominante em geração de imagens.
  • O DIAMOND foi desenvolvido inspirado por essa mudança de paradigma.

Desempenho e resultados do DIAMOND

  • O DIAMOND alcançou uma pontuação média normalizada por humanos de 1,46 no benchmark Atari 100k.
  • Esse é o melhor desempenho entre agentes treinados dentro de modelos de mundo.
  • O código do DIAMOND está disponível publicamente no GitHub.

Como o DIAMOND funciona

  • O modelo de diffusion é treinado para prever o próximo frame do jogo.
  • Ele simula a resposta do ambiente levando em conta a ação do agente e os frames anteriores.
  • A geração autorregressiva ajuda o agente a aprender o jogo.
  • Para um modelo de mundo rápido, é preciso reduzir o número de etapas de denoising.
  • Modelos baseados em DDPM ficam instáveis com poucas etapas de denoising, enquanto modelos baseados em EDM permanecem estáveis.

A importância dos detalhes visuais

  • O DIAMOND modela melhor os detalhes visuais importantes.
  • Ele captura detalhes visuais melhores do que o IRIS baseado em tokens discretos.
  • No Atari 100k, apresenta desempenho 46% superior ao humano.

Resumo do GN⁺

  • O DIAMOND destaca a importância dos detalhes visuais no aprendizado por reforço.
  • Usando modelos de diffusion, é possível capturar melhor os detalhes visuais.
  • Ele mostra melhora de desempenho em jogos como Atari e CSGO.
  • Pode ser um material interessante e útil para pesquisadores da área relacionada.
  • Projetos com funcionalidades semelhantes incluem DreamerV2 e PlaNet.

1 comentários

 
GN⁺ 2024-10-14
Comentários do Hacker News
  • Um usuário menciona que o vídeo linkado é muito semelhante aos seus sonhos e explica que tem uma experiência parecida quando tenta dar saltos altos em sonhos

  • Explica que o modelo de 300M de parâmetros foi treinado por 12 dias em uma GTX4090 com 5M de frames

  • Menciona que uma grande empresa de tecnologia fez algo semelhante em 2015

  • Comenta que trabalhos em escala industrial, como os de LLMs de grande porte, seriam muito impressionantes

  • Explica que isso poderia ser usado para gerar aproximações realistas de física em engines de jogo

    • Gerar trechos de gameplay usando uma engine de física pesada e treinar o modelo para aproximar a física
    • Sugere que poderia haver várias engines de física especializadas
  • Levanta a pergunta para quem realmente testou isso: se está construindo mapas de jogo ou se é uma experiência estranha e alucinatória

  • Afirma entender o conceito básico de difusão estável e se pergunta se existem pesquisas tentando isso no nível de ativos 3D

  • Estranha que algumas pessoas não reconheçam o "ruído do inferno" em imagens e vídeos de redes neurais

  • Menciona um trabalho que o grupo de Schmidhuber fez em 2018 e compartilha um link

  • Comenta que seria interessante treinar o modelo com vídeos reais relacionados ao GTA mais recente para melhorar o visual de jogos antigos

  • Pergunta se existe uma forma de combinar isso com modelos de linguagem e argumenta que a linguagem deveria se basear em modelos de mundo

  • Considera os modelos de linguagem ineficientes e imagina um "jogo" treinado como ferramenta de engenharia estrutural

  • Explica que essa rede pode ser parte de algo que entende o mundo e consegue prever ações úteis ou responder perguntas

  • Pergunta como esse modelo com um loop forte reagiria ao usar uma nova imagem ou mapa como ponto de partida