Genie 2, da DeepMind: um modelo de mundo fundacional em larga escala

(deepmind.google)

5 pontos por GN⁺ 2024-12-05 | 1 comentários | Compartilhar no WhatsApp

O Genie 2 é um modelo de mundo fundacional que gera diversos ambientes 3D que podem ser manipulados por humanos ou agentes de IA usando teclado e mouse
Jogos desempenham um papel importante na pesquisa em IA, e o Genie 2 permite treinar e avaliar agentes em novos mundos com um currículo infinito
Recursos
- Prototipagem rápida: o Genie 2 permite prototipar rapidamente diversas experiências interativas, possibilitando que pesquisadores experimentem novos ambientes.
- Implantação de agentes: com o Genie 2, é possível gerar rapidamente ambientes ricos e variados para agentes de IA.
- Arquitetura do modelo: treinado com grandes conjuntos de dados de vídeo, o Genie 2 consegue modelar diversas interações entre objetos, animações complexas de personagens, física e muito mais.
- Desenvolvimento responsável: o Genie 2 mostra o potencial de modelos de mundo fundacionais para gerar diversos ambientes 3D e acelerar a pesquisa com agentes.
Capacidades emergentes
- O Genie 2 pode gerar diversos mundos 3D e modelar interações entre objetos, animações complexas de personagens, física e muito mais.
- O usuário pode descrever um mundo em texto, selecionar uma renderização dessa ideia e interagir com o mundo recém-gerado.
- Controle por ação: o Genie 2 identifica corretamente o personagem e o move de acordo com a entrada do teclado.
- Geração de experiências ramificadas: a partir do mesmo frame inicial, é possível gerar diferentes trajetórias para simular experiências ramificadas para o treinamento de agentes.
- Memória de longo prazo: o Genie 2 consegue lembrar partes do mundo que saíram do campo de visão e renderizá-las corretamente quando se tornam observáveis novamente.
- Ambientes variados: o Genie 2 pode gerar diferentes perspectivas, como primeira pessoa, visão isométrica e vídeos de direção em terceira pessoa.
- Estrutura 3D: é capaz de gerar cenas visuais 3D complexas.
- Interação com objetos: consegue modelar várias interações com objetos, como estourar balões, abrir portas e disparar explosivos.
- Animação de personagens: pode animar personagens realizando diversas atividades.
- NPCs: pode modelar interações complexas com outros agentes.
- Física: consegue modelar efeitos de água, fumaça, gravidade, iluminação e mais.
- Jogabilidade a partir de imagens reais: por meio de prompts com imagens reais, pode modelar água correndo em um lago ou grama balançando ao vento.
Prototipagem rápida de diversas experiências interativas
- O Genie 2 ajuda a experimentar e implementar rapidamente novos ambientes, além de treinar e testar agentes de IA incorporados
  - Exemplo: simulação de diversos ambientes para controlar aviões de papel, dragões, falcões e paraquedas usando imagens geradas pelo Imagen 3
- Com a capacidade de generalização fora da distribuição do Genie 2, é possível transformar concept art e ilustrações em ambientes interativos completos
  - A prototipagem rápida ajuda a impulsionar o processo criativo e acelerar o design de ambientes
Geração de ambientes de avaliação com o Genie 2
- O Genie 2 pode gerar rapidamente ambientes ricos e variados para agentes de IA
  - Testando agentes com novas tarefas de avaliação que não foram encontradas durante o treinamento
- O agente SIMA, desenvolvido pela DeepMind em colaboração com desenvolvedores de jogos, executa tarefas em mundos de jogos 3D com base em instruções em linguagem natural
  - O Genie 2 gera ambientes 3D a partir de um único prompt de imagem, e o agente SIMA interage por meio de entradas de teclado e mouse
- Embora ainda esteja em estágio inicial de pesquisa, espera-se que o Genie 2 contribua para resolver o problema do treinamento seguro de agentes incorporados ao fornecer diversidade e generalidade aos ambientes de treinamento
- O treinamento generalizado de agentes de IA estabelece a base para o avanço da AGI (inteligência artificial geral)
Modelo de mundo por difusão
- O Genie 2 é um modelo de difusão latente treinado com base em grandes conjuntos de dados de vídeo
- Os frames são convertidos em espaço latente por meio de um autoencoder e depois enviados para um modelo dinâmico baseado em Transformer
- Durante o treinamento, aplica-se uma máscara causal semelhante à usada em modelos de linguagem
- Inferência autorregressiva
  - Durante a inferência, o Genie 2 faz amostragem autorregressiva de frames latentes passados e dados de ação quadro a quadro
  - Usa a técnica Classifier-Free Guidance para melhorar a controlabilidade por ação
- O Genie 2 gera ambientes 3D de alta resolução com eficiência, mantendo a controlabilidade por ação
- Ao combinar modelos de difusão com uma abordagem autorregressiva, oferece tecnologia de próxima geração para ambientes virtuais imersivos
Desenvolvimento tecnológico responsável
- O Genie 2 mostra o potencial de modelos de mundo fundacionais para gerar diversos ambientes 3D e acelerar a pesquisa com agentes.

1 comentários

GN⁺ 2024-12-05

Comentários do Hacker News

Há curiosidade sobre o tamanho deste modelo, e lamenta-se a falta de detalhes técnicos. Aponta-se que a abordagem do Google continua sendo fechada. Ainda assim, é surpreendente a possibilidade de explorar um mundo com base em fotos e descrições em texto.
É interessante que a pressão em torno da geração de vídeo e de mundos continue. Expressa-se interesse em jogos de geração infinita de histórias e expectativa por uma era de ouro futura do storytelling interativo.
Aponta-se que esta tecnologia pode não ser útil para o desenvolvimento de jogos. Jogos dependem de interação, e os designers precisam ter controle profundo. A parte de geração de mundos parece ser a mais útil.
Destaca-se que esta tecnologia trará grandes avanços para AGI e robótica. É vista como um ponto de partida para adicionar às máquinas funções semelhantes à forma como o cérebro humano opera.
Explica-se que o verdadeiro objetivo da pesquisa é desenvolver um modelo que supere a compreensão humana do mundo 3D. Isso contribuirá para avanços em robótica e carros autônomos.
Expressa-se decepção pelo fato de o Genie 2 ignorar os detalhes da arte conceitual. Critica-se que as belas criaturas alienígenas originais sejam ignoradas.
Explica-se que a IA generativa oferece flexibilidade, mas exige muito poder computacional. Expressa-se curiosidade sobre os papéis da programação tradicional e da IA generativa.
Questiona-se o valor real desta tecnologia. Aponta-se que o alto custo computacional e o comportamento irregular são problemas.
Como a rolagem não funcionava no MS Edge, foi usado o Firefox, e menciona-se que a qualidade visual do vídeo não é boa. Questiona-se por que pesquisadores de IA tentam substituir sistemas existentes que já funcionam bem.

Genie 2, da DeepMind: um modelo de mundo fundacional em larga escala

Leituras relacionadas

1 comentários

Comentários do Hacker News