5 pontos por GN⁺ 2024-12-05 | 1 comentários | Compartilhar no WhatsApp
  • O Genie 2 é um modelo de mundo fundacional que gera diversos ambientes 3D que podem ser manipulados por humanos ou agentes de IA usando teclado e mouse
  • Jogos desempenham um papel importante na pesquisa em IA, e o Genie 2 permite treinar e avaliar agentes em novos mundos com um currículo infinito
  • Recursos
    • Prototipagem rápida: o Genie 2 permite prototipar rapidamente diversas experiências interativas, possibilitando que pesquisadores experimentem novos ambientes.
    • Implantação de agentes: com o Genie 2, é possível gerar rapidamente ambientes ricos e variados para agentes de IA.
    • Arquitetura do modelo: treinado com grandes conjuntos de dados de vídeo, o Genie 2 consegue modelar diversas interações entre objetos, animações complexas de personagens, física e muito mais.
    • Desenvolvimento responsável: o Genie 2 mostra o potencial de modelos de mundo fundacionais para gerar diversos ambientes 3D e acelerar a pesquisa com agentes.
  • Capacidades emergentes
    • O Genie 2 pode gerar diversos mundos 3D e modelar interações entre objetos, animações complexas de personagens, física e muito mais.
    • O usuário pode descrever um mundo em texto, selecionar uma renderização dessa ideia e interagir com o mundo recém-gerado.
    • Controle por ação: o Genie 2 identifica corretamente o personagem e o move de acordo com a entrada do teclado.
    • Geração de experiências ramificadas: a partir do mesmo frame inicial, é possível gerar diferentes trajetórias para simular experiências ramificadas para o treinamento de agentes.
    • Memória de longo prazo: o Genie 2 consegue lembrar partes do mundo que saíram do campo de visão e renderizá-las corretamente quando se tornam observáveis novamente.
    • Ambientes variados: o Genie 2 pode gerar diferentes perspectivas, como primeira pessoa, visão isométrica e vídeos de direção em terceira pessoa.
    • Estrutura 3D: é capaz de gerar cenas visuais 3D complexas.
    • Interação com objetos: consegue modelar várias interações com objetos, como estourar balões, abrir portas e disparar explosivos.
    • Animação de personagens: pode animar personagens realizando diversas atividades.
    • NPCs: pode modelar interações complexas com outros agentes.
    • Física: consegue modelar efeitos de água, fumaça, gravidade, iluminação e mais.
    • Jogabilidade a partir de imagens reais: por meio de prompts com imagens reais, pode modelar água correndo em um lago ou grama balançando ao vento.
  • Prototipagem rápida de diversas experiências interativas
    • O Genie 2 ajuda a experimentar e implementar rapidamente novos ambientes, além de treinar e testar agentes de IA incorporados
      • Exemplo: simulação de diversos ambientes para controlar aviões de papel, dragões, falcões e paraquedas usando imagens geradas pelo Imagen 3
    • Com a capacidade de generalização fora da distribuição do Genie 2, é possível transformar concept art e ilustrações em ambientes interativos completos
      • A prototipagem rápida ajuda a impulsionar o processo criativo e acelerar o design de ambientes
  • Geração de ambientes de avaliação com o Genie 2
    • O Genie 2 pode gerar rapidamente ambientes ricos e variados para agentes de IA
      • Testando agentes com novas tarefas de avaliação que não foram encontradas durante o treinamento
    • O agente SIMA, desenvolvido pela DeepMind em colaboração com desenvolvedores de jogos, executa tarefas em mundos de jogos 3D com base em instruções em linguagem natural
      • O Genie 2 gera ambientes 3D a partir de um único prompt de imagem, e o agente SIMA interage por meio de entradas de teclado e mouse
    • Embora ainda esteja em estágio inicial de pesquisa, espera-se que o Genie 2 contribua para resolver o problema do treinamento seguro de agentes incorporados ao fornecer diversidade e generalidade aos ambientes de treinamento
    • O treinamento generalizado de agentes de IA estabelece a base para o avanço da AGI (inteligência artificial geral)
  • Modelo de mundo por difusão
    • O Genie 2 é um modelo de difusão latente treinado com base em grandes conjuntos de dados de vídeo
    • Os frames são convertidos em espaço latente por meio de um autoencoder e depois enviados para um modelo dinâmico baseado em Transformer
    • Durante o treinamento, aplica-se uma máscara causal semelhante à usada em modelos de linguagem
    • Inferência autorregressiva
      • Durante a inferência, o Genie 2 faz amostragem autorregressiva de frames latentes passados e dados de ação quadro a quadro
      • Usa a técnica Classifier-Free Guidance para melhorar a controlabilidade por ação
    • O Genie 2 gera ambientes 3D de alta resolução com eficiência, mantendo a controlabilidade por ação
    • Ao combinar modelos de difusão com uma abordagem autorregressiva, oferece tecnologia de próxima geração para ambientes virtuais imersivos
  • Desenvolvimento tecnológico responsável
    • O Genie 2 mostra o potencial de modelos de mundo fundacionais para gerar diversos ambientes 3D e acelerar a pesquisa com agentes.

1 comentários

 
GN⁺ 2024-12-05
Comentários do Hacker News
  • Há curiosidade sobre o tamanho deste modelo, e lamenta-se a falta de detalhes técnicos. Aponta-se que a abordagem do Google continua sendo fechada. Ainda assim, é surpreendente a possibilidade de explorar um mundo com base em fotos e descrições em texto.

  • É interessante que a pressão em torno da geração de vídeo e de mundos continue. Expressa-se interesse em jogos de geração infinita de histórias e expectativa por uma era de ouro futura do storytelling interativo.

  • Aponta-se que esta tecnologia pode não ser útil para o desenvolvimento de jogos. Jogos dependem de interação, e os designers precisam ter controle profundo. A parte de geração de mundos parece ser a mais útil.

  • Destaca-se que esta tecnologia trará grandes avanços para AGI e robótica. É vista como um ponto de partida para adicionar às máquinas funções semelhantes à forma como o cérebro humano opera.

  • Explica-se que o verdadeiro objetivo da pesquisa é desenvolver um modelo que supere a compreensão humana do mundo 3D. Isso contribuirá para avanços em robótica e carros autônomos.

  • Expressa-se decepção pelo fato de o Genie 2 ignorar os detalhes da arte conceitual. Critica-se que as belas criaturas alienígenas originais sejam ignoradas.

  • Explica-se que a IA generativa oferece flexibilidade, mas exige muito poder computacional. Expressa-se curiosidade sobre os papéis da programação tradicional e da IA generativa.

  • Questiona-se o valor real desta tecnologia. Aponta-se que o alto custo computacional e o comportamento irregular são problemas.

  • Como a rolagem não funcionava no MS Edge, foi usado o Firefox, e menciona-se que a qualidade visual do vídeo não é boa. Questiona-se por que pesquisadores de IA tentam substituir sistemas existentes que já funcionam bem.