Visão geral do DIAMOND 💎
- DIAMOND é um agente de aprendizado por reforço treinado em um modelo de mundo por diffusion.
- Esse modelo trata os detalhes visuais como algo importante em ambientes de jogos como Atari.
- O DIAMOND também consegue simular ambientes 3D, por exemplo CounterStrike: Global Offensive (CSGO).
Contexto e motivação da pesquisa
- Modelos de mundo são uma abordagem promissora para treinar agentes de aprendizado por reforço com segurança e eficiência.
- Os modelos de mundo existentes modelam principalmente a dinâmica do ambiente usando sequências de variáveis latentes discretas.
- Porém, essa compressão pode ignorar detalhes visuais importantes para o aprendizado por reforço.
- Modelos de diffusion se consolidaram como a abordagem dominante em geração de imagens.
- O DIAMOND foi desenvolvido inspirado por essa mudança de paradigma.
Desempenho e resultados do DIAMOND
- O DIAMOND alcançou uma pontuação média normalizada por humanos de 1,46 no benchmark Atari 100k.
- Esse é o melhor desempenho entre agentes treinados dentro de modelos de mundo.
- O código do DIAMOND está disponível publicamente no GitHub.
Como o DIAMOND funciona
- O modelo de diffusion é treinado para prever o próximo frame do jogo.
- Ele simula a resposta do ambiente levando em conta a ação do agente e os frames anteriores.
- A geração autorregressiva ajuda o agente a aprender o jogo.
- Para um modelo de mundo rápido, é preciso reduzir o número de etapas de denoising.
- Modelos baseados em DDPM ficam instáveis com poucas etapas de denoising, enquanto modelos baseados em EDM permanecem estáveis.
A importância dos detalhes visuais
- O DIAMOND modela melhor os detalhes visuais importantes.
- Ele captura detalhes visuais melhores do que o IRIS baseado em tokens discretos.
- No Atari 100k, apresenta desempenho 46% superior ao humano.
Resumo do GN⁺
- O DIAMOND destaca a importância dos detalhes visuais no aprendizado por reforço.
- Usando modelos de diffusion, é possível capturar melhor os detalhes visuais.
- Ele mostra melhora de desempenho em jogos como Atari e CSGO.
- Pode ser um material interessante e útil para pesquisadores da área relacionada.
- Projetos com funcionalidades semelhantes incluem DreamerV2 e PlaNet.
1 comentários
Comentários do Hacker News
Um usuário menciona que o vídeo linkado é muito semelhante aos seus sonhos e explica que tem uma experiência parecida quando tenta dar saltos altos em sonhos
Explica que o modelo de 300M de parâmetros foi treinado por 12 dias em uma GTX4090 com 5M de frames
Menciona que uma grande empresa de tecnologia fez algo semelhante em 2015
Comenta que trabalhos em escala industrial, como os de LLMs de grande porte, seriam muito impressionantes
Explica que isso poderia ser usado para gerar aproximações realistas de física em engines de jogo
Levanta a pergunta para quem realmente testou isso: se está construindo mapas de jogo ou se é uma experiência estranha e alucinatória
Afirma entender o conceito básico de difusão estável e se pergunta se existem pesquisas tentando isso no nível de ativos 3D
Estranha que algumas pessoas não reconheçam o "ruído do inferno" em imagens e vídeos de redes neurais
Menciona um trabalho que o grupo de Schmidhuber fez em 2018 e compartilha um link
Comenta que seria interessante treinar o modelo com vídeos reais relacionados ao GTA mais recente para melhorar o visual de jogos antigos
Pergunta se existe uma forma de combinar isso com modelos de linguagem e argumenta que a linguagem deveria se basear em modelos de mundo
Considera os modelos de linguagem ineficientes e imagina um "jogo" treinado como ferramenta de engenharia estrutural
Explica que essa rede pode ser parte de algo que entende o mundo e consegue prever ações úteis ou responder perguntas
Pergunta como esse modelo com um loop forte reagiria ao usar uma nova imagem ou mapa como ponto de partida