Diffusion Models Are Real-Time Game Engines
- GameNGen: o primeiro motor de jogo movido por um modelo neural, oferecendo interação em tempo real com ambientes complexos em alta qualidade
- Simulação de DOOM: consegue simular interativamente o jogo clássico DOOM a mais de 20 quadros por segundo em uma única TPU
- PSNR: alcança 29,4 de PSNR na previsão do próximo quadro, semelhante à compressão JPEG com perdas
- Avaliadores humanos: avaliadores humanos tiveram desempenho apenas um pouco melhor do que palpites aleatórios ao distinguir clipes do jogo de clipes simulados
Vídeo completo da jogabilidade
Coleta de dados por meio de jogabilidade de agentes
- Agente de RL automatizado: como não é possível coletar dados de jogabilidade humana em grande escala, a primeira etapa foi treinar um agente de RL automatizado para jogar e registrar as ações e observações desses episódios de treinamento para usá-las como dados de treinamento do modelo generativo
Treinamento do modelo generativo de difusão
- Stable Diffusion v1.4: reutiliza um pequeno modelo de difusão condicionado por sequências de ações e observações anteriores (quadros)
- Adição de ruído gaussiano: durante o treinamento, adiciona ruído gaussiano aos quadros codificados para degradar os quadros de contexto, permitindo que a rede corrija informações amostradas de quadros anteriores. Isso é importante para manter a estabilidade visual por longos períodos
Ajuste fino do decodificador latente
- Autoencoder pré-treinado do Stable Diffusion v1.4: comprime blocos de 8x8 pixels em 4 canais latentes, o que causa artefatos significativos ao prever quadros do jogo. Isso afeta especialmente pequenos detalhes e o HUD da barra inferior
- Treinamento do decodificador: para melhorar a qualidade da imagem, treina apenas o decodificador do autoencoder latente calculando a perda MSE sobre os pixels dos quadros-alvo
Resumo do GN⁺
- GameNGen é o primeiro motor de jogo a usar um modelo neural para interagir em tempo real com ambientes complexos
- Por meio da simulação de DOOM, oferece previsão de quadros em alta qualidade, a ponto de avaliadores humanos terem dificuldade para distinguir o jogo real da simulação
- Reutiliza modelos existentes, como Stable Diffusion v1.4, para aumentar a eficiência e mantém a estabilidade visual com técnicas como a adição de ruído gaussiano
- O ajuste fino do decodificador latente melhora a qualidade da imagem e preserva os detalhes dos quadros do jogo
1 comentários
Comentários no Hacker News
O modelo de difusão do Google usando SD 1.4 parece incorporar mais causalidade, consequência e sequência do que o esperado
Este artigo não descreve um sistema que receba entrada do usuário em tempo real e ajuste a saída
É impressionante que esse modelo consiga renderizar a 20 fps
As tentativas de fazer Doom rodar em tudo continuam
É engraçado ler comentários apontando que isso não tem sentido
Comparação entre os requisitos de sistema de Doom e o Stable Diffusion v1
O papel de uma engine de jogo é renderizar o mundo
Embora não tenham sido fornecidas condições de texto, pode ser possível criar um novo jogo apenas com prompts de texto