- O Project Genie do Google é um protótipo experimental de pesquisa que permite aos usuários criar, explorar e remixar mundos virtuais interativos usando texto e imagens
- Baseado no modelo Genie 3, ele gera caminhos e ambientes em tempo real de acordo com os movimentos do usuário
- É oferecido em formato de aplicativo web, com integração dos modelos Nano Banana Pro e Gemini para oferecer suporte a recursos de esboço, exploração e remix de mundos
- Devido às limitações do modelo, a versão inicial tem restrições como inconsistências com as leis da física, atraso no controle de personagens e limite de 60 segundos
- Atualmente está disponível para assinantes do Google AI Ultra nos EUA (maiores de 18 anos), com expansão planejada para mais regiões no futuro
Visão geral do Project Genie
- O Project Genie é um protótipo experimental de pesquisa desenvolvido pelo Google DeepMind com base no Genie 3, oferecendo um ambiente em que os usuários podem criar, explorar e remixar mundos virtuais diretamente
- Disponível para assinantes do Google AI Ultra nos EUA (maiores de 18 anos)
- Os usuários podem gerar mundos por meio de prompts de texto e imagens e explorá-los em tempo real
- Este projeto é um primeiro passo para tornar pública a tecnologia de geração de mundos imersivos para usuários em geral e representa uma expansão da pesquisa em world models
Evolução dos World Models
- World models são sistemas que simulam mudanças dinâmicas no ambiente e preveem o impacto das ações
- O Google DeepMind busca ir além da pesquisa de agentes para ambientes específicos, como xadrez ou Go, com o objetivo de desenvolver sistemas de AGI capazes de explorar a diversidade do mundo real
- O Genie 3 gera caminhos em tempo real conforme o usuário se move e simula interações físicas
- Dá suporte à geração de mundos dinâmicos, em vez de snapshots 3D estáticos
- Pode ser aplicado em diversos cenários, como robótica, animação, ficção e exploração de lugares históricos
Como o Project Genie funciona
- Trata-se de um protótipo baseado na web que, além do Genie 3, integra os modelos Nano Banana Pro e Gemini
- Ele é composto por três recursos principais
-
1. World Sketching (esboço do mundo)
- Usa texto e imagens (geradas ou enviadas) para projetar ambientes vivos
- É possível definir personagens e formas de exploração, com suporte a várias formas de deslocamento, como caminhar, voar e dirigir
- A integração com o Nano Banana Pro permite visualizar previamente e ajustar detalhes do mundo
- É possível escolher a perspectiva em primeira ou terceira pessoa
-
2. World Exploration (exploração do mundo)
- O mundo gerado se torna um ambiente explorável, no qual caminhos são criados em tempo real conforme as ações do usuário
- É possível ajustar o ângulo da câmera durante a exploração
-
3. World Remixing (remix do mundo)
- Com base no prompt de um mundo existente, é possível reconstruir o mundo com uma nova interpretação
- Por meio da galeria ou do recurso de exploração aleatória, é possível explorar ou modificar mundos criados por outros usuários
- O mundo finalizado e o processo de exploração podem ser baixados em vídeo
Construindo IA responsável
- O Project Genie é um protótipo experimental de pesquisa conduzido no Google Labs e operado de acordo com os princípios de desenvolvimento responsável de IA
- Devido às limitações atuais do modelo, são indicadas as seguintes restrições
- Os mundos gerados podem diferir da realidade ou ser inconsistentes com o prompt e as leis da física
- Pode haver atraso no controle do personagem ou queda de responsividade
- Existe um limite de geração de 60 segundos
- O recurso de mudança de eventos baseado em prompts, anunciado em agosto de 2025, ainda não está incluído
- Futuras atualizações e melhorias poderão ser acompanhadas na página oficial do DeepMind
Planos futuros e expansão de acesso
- O Project Genie foi desenvolvido com base em pesquisa colaborativa com testadores confiáveis
- Este lançamento é uma etapa para entender como os usuários realmente utilizam world models
- No momento, está disponível apenas para assinantes do Google AI Ultra nos EUA, com expansão para mais regiões prevista no futuro
- No longo prazo, o Google pretende abrir a tecnologia de geração de mundos para mais usuários
1 comentários
Comentários do Hacker News
Ultimamente continuo pensando em The Experience Machine, de Andy Clark
É a teoria de que o cérebro humano não percebe o mundo diretamente, mas vivencia a realidade corrigindo com os sentidos uma simulação gerada internamente
Ou seja, vivemos dentro de um modelo generativo de alta resolução, e os sentidos servem para ajustar os sinais de erro desse modelo
Assim como o Genie 3 prevê o próximo quadro no espaço latente, o cérebro humano também tenta minimizar a diferença entre expectativa e experiência real por meio de Active Inference
No fim, a sensação de realidade seria não um registro direto do mundo externo, mas uma simulação interativa constantemente corrigida
Por exemplo, os sonhos podem ser vistos como um caso em que o modelo interno opera livremente com a entrada sensorial bloqueada
Esse tipo de tema já foi tratado há muito tempo também na filosofia e na religião, e é interessante pensar que a consciência humana constrói a realidade por meio de suas próprias projeções
Surge a pergunta: a partir de que momento isso deixa de ser uma foto e passa a ser uma obra impressionista calculada?
Muita gente parece estar entendendo o Genie como apenas um produto para jogos ou filmes
Mas o verdadeiro objetivo é criar o “motor de imaginação” da próxima geração de IA e robôs, ou seja, um modelo de mundo que simula as consequências das ações para ajudar na tomada de decisão
Imagino uma estrutura que codifica vídeo do mundo real em certa taxa de quadros para ancorar a imaginação do modelo em dados reais, ramifica cenários possíveis de ação para avaliá-los e depois envia a melhor previsão para os motores
Ajustar o timing não deve ser fácil, mas a direção geral já está visível
O Genie gera vídeo como uma interface que humanos conseguem entender e depurar
Ou seja, o objetivo é outro: um tipo de jogo experimental de IA para pesquisadores
Se o Genie se combinar com VR, talvez surja um ponto de virada distópico parecido
Mas eu ainda prefiro o risco e a vivacidade do mundo real
Fiquei muito feliz com a apresentação do Genie
Há alguns vídeos interessantes de usuários iniciais:
exploração urbana, simulação de helicóptero, estação espacial e Dunkin' Donuts, simulação de notebook, lontra piloto
Criei vários mundos, como caminhar na Lua, encontrar Holmes e Watson em 221B Baker Street ou explorar um chá de bolhas gigante em meio a um mercado noturno de Taipei
Também há um vídeo de demonstração
Ainda é um protótipo experimental, mas parece uma pista do futuro
É legal poder gerar assets de Unreal 5 com algumas palavras, mas na prática eu não gostaria de brincar assim
Além disso, não tenho intenção de pagar custo computacional por segundo
O verdadeiro avanço do Genie é o fato de que dá para olhar para trás
Os simuladores de outros laboratórios não conseguiam manter consistência fora do campo de visão, mas o Genie resolve isso
Só que esse método provavelmente teria limitações para expressão animada
Há um vídeo de entrevista com a equipe do Project Genie
Link no YouTube
O Genie é um protótipo de pesquisa que permite gerar, explorar e interagir em tempo real com mundos fotorrealistas infinitamente variados
Ele trata da transição de geração de vídeo passiva para mídia interativa, dos desafios técnicos de consistência de mundo e manutenção de memória, e do papel disso como campo de treinamento para agentes de IA
Quanto mais vejo esse tipo de tecnologia, mais eu quero passar tempo no mundo real
Dá vontade de desligar a tela e voltar a fazer as coisas que eu amo
Um mundo virtual criado a partir de cenas filmadas de verdade acaba transmitindo tristeza
Talvez a realidade também já seja uma simulação
Isso me lembrou um projeto pessoal que apareceu no HN e treinava um modelo de mundo com vídeos de parque
Também havia uma demo interativa, e o Genie parece uma evolução daquela ideia
É uma pena que blogs e demos indie não sejam citados
O modelo do parque tinha 5 milhões de parâmetros, foi treinado com um vídeo de 15 minutos e rodava até em iPhone
Já o Genie 3 é um modelo gigantesco com dezenas de bilhões de parâmetros, treinado com milhões de horas de vídeo
Também estão surgindo modelos de porte intermediário, então talvez em 1 ou 2 anos seja possível rodar localmente em uma GPU gamer
Exemplos: LingBot-World, Waypoint 1
Tudo isso lembra o tema do filme The Thirteenth Floor
Link do trailer
Queria que alguém criasse um mundo a partir deste GIF
Faz tempo que tenho curiosidade sobre isso. Por que a Meta(FB) não é mais agressiva com modelos de mundo?
Isso é justamente o núcleo da visão de metaverso, mas em vez disso deixaram Yann LeCun sair
Não entrou na corrida dos LLMs e ficou focado apenas em teorias não comprovadas
Como resultado, a Meta ficou para trás no grupo de liderança em IA, e o LeCun acabou saindo preservando o prestígio
O JEPA é como um romancista que resume: “o cachorro corre em direção ao carteiro”
O Genie é como um pintor que precisa desenhar diretamente a próxima cena para que a história exista
Ou seja, o Genie faz geração quadro a quadro, enquanto o JEPA faz previsão em nível conceitual
Se isso não virar produto, talvez o projeto inteiro tenha que ser encerrado
Por melhor que o conteúdo seja, isso ainda continua sendo um mercado de nicho