- O primeiro modelo de mundo de uso geral capaz de gerar ambientes 3D interativos em tempo real apenas com prompts de texto
- Suporta 24 fps, resolução 720p e consistência mantida por vários minutos, com grandes avanços em interatividade, realismo e persistência em relação ao Genie 2
- Consegue gerar de forma natural e variada mundos virtuais sobre fenômenos físicos, ecossistemas, animações, contextos históricos e geográficos, entre outros temas
- Com o recurso Promptable world events, o usuário pode controlar em tempo real eventos dinâmicos, como mudanças no clima e adição de objetos, por texto
- Foi projetado para pesquisa com agentes e pode ser integrado a agentes SIMA, permitindo testar objetivos de longo prazo e sequências complexas de ações
Genie 3: a inovação na simulação de mundos
Contexto da evolução dos modelos de mundo
- A DeepMind tem liderado a pesquisa em ambientes de simulação para treinamento de agentes de IA, open-ended learning e robótica
- Modelos de mundo são sistemas de IA capazes de prever e reproduzir mudanças no ambiente e os resultados das ações dos agentes, sendo considerados uma etapa intermediária importante rumo à AGI
- Após Genie 1 e 2, o Genie 3 é o primeiro modelo de mundo a oferecer ao mesmo tempo interatividade em tempo real e consistência visual e física
Principais recursos do Genie 3
-
Modelagem da natureza e de fenômenos físicos
- Implementa de forma natural fenômenos do mundo real, como água, luz e diversas interações ambientais, apenas com prompts
-
Ecossistemas complexos e animações
- Permite gerar a dinâmica de ecossistemas, como comportamento animal e crescimento de plantas, além de mundos animados baseados na imaginação
-
Reprodução de contextos históricos e geográficos
- Pode construir em tempo real ambientes virtuais com diversos espaços que atravessam fronteiras geográficas e temporais
-
Interação e controle em tempo real
- Visualiza mudanças imediatas no mundo em 24 fps e 720p de acordo com a entrada do usuário
- Lembra posições e estados visitados anteriormente, mantendo consistência física e visual por vários minutos
-
Promptable World Events
- Permite disparar em tempo real eventos de mudança ambiental, como alterações climáticas e adição de objetos e personagens, via prompt de texto
- Além do controle de exploração, oferece amplo potencial de uso para cenários de “e se” e criação de situações incomuns
-
Pesquisa e experimentação com agentes
- Agentes de IA especializados em ambientes 3D, como o SIMA, podem perseguir objetivos complexos dentro do mundo do Genie 3 e ter sua capacidade de executar sequências longas validada
- Os objetivos do agente não são compartilhados com o Genie 3; os resultados são gerados apenas a partir da sequência de ações e da simulação do mundo
Desafios técnicos e resultados
- No processo de geração autorregressiva quadro a quadro, é necessário refletir em tempo real tanto a entrada do usuário quanto as sequências anteriores, o que exige tecnologia de alta complexidade
- Diferentemente de NeRF, Gaussian Splatting e outras abordagens existentes, o Genie 3 é puramente baseado em geração, sem representação 3D explícita, permitindo ambientes muito mais dinâmicos e ricos
Limitações e desafios
- Faixa de ações limitada: as mudanças de ambiente baseadas em prompt são variadas, mas as ações que podem ser executadas diretamente ainda são limitadas
- Interação entre múltiplos agentes: a simulação precisa de interações entre vários agentes continua sendo um tema de pesquisa
- Limites na reprodução de locais do mundo real: não oferece precisão perfeita de espaços geográficos reais
- Limitações na renderização de texto: representações textuais claras só são possíveis quando inseridas explicitamente
- Limite de tempo de interação: no momento, suporta apenas interações contínuas de alguns minutos
Responsabilidade e escopo de divulgação
- As características open-ended e de geração em tempo real do Genie 3 trazem novas questões de segurança e ética, por isso a equipe trabalha em estreita colaboração com o Responsible Development & Innovation Team
- Inicialmente, ele será oferecido em formato de research preview apenas para um grupo limitado de pesquisadores e criadores, com expansão gradual e definição de medidas de mitigação de risco com base no feedback
Futuro e perspectivas de uso
- O Genie 3 apresenta novas possibilidades em várias áreas, como educação, treinamento, aprendizado de agentes de IA e validação de desempenho
- Espera-se que desempenhe um papel central na pesquisa de AGI (inteligência artificial geral) e que seja desenvolvido com segurança em uma direção benéfica para a humanidade
Ainda não há comentários.