Project Genie: experimentando mundos infinitos e interativos

(blog.google)

6 pontos por GN⁺ 2026-01-30 | 1 comentários | Compartilhar no WhatsApp

O Project Genie do Google é um protótipo experimental de pesquisa que permite aos usuários criar, explorar e remixar mundos virtuais interativos usando texto e imagens
Baseado no modelo Genie 3, ele gera caminhos e ambientes em tempo real de acordo com os movimentos do usuário
É oferecido em formato de aplicativo web, com integração dos modelos Nano Banana Pro e Gemini para oferecer suporte a recursos de esboço, exploração e remix de mundos
Devido às limitações do modelo, a versão inicial tem restrições como inconsistências com as leis da física, atraso no controle de personagens e limite de 60 segundos
Atualmente está disponível para assinantes do Google AI Ultra nos EUA (maiores de 18 anos), com expansão planejada para mais regiões no futuro

Visão geral do Project Genie

O Project Genie é um protótipo experimental de pesquisa desenvolvido pelo Google DeepMind com base no Genie 3, oferecendo um ambiente em que os usuários podem criar, explorar e remixar mundos virtuais diretamente
- Disponível para assinantes do Google AI Ultra nos EUA (maiores de 18 anos)
- Os usuários podem gerar mundos por meio de prompts de texto e imagens e explorá-los em tempo real
Este projeto é um primeiro passo para tornar pública a tecnologia de geração de mundos imersivos para usuários em geral e representa uma expansão da pesquisa em world models

Evolução dos World Models

World models são sistemas que simulam mudanças dinâmicas no ambiente e preveem o impacto das ações
O Google DeepMind busca ir além da pesquisa de agentes para ambientes específicos, como xadrez ou Go, com o objetivo de desenvolver sistemas de AGI capazes de explorar a diversidade do mundo real
O Genie 3 gera caminhos em tempo real conforme o usuário se move e simula interações físicas
- Dá suporte à geração de mundos dinâmicos, em vez de snapshots 3D estáticos
- Pode ser aplicado em diversos cenários, como robótica, animação, ficção e exploração de lugares históricos

Como o Project Genie funciona

Trata-se de um protótipo baseado na web que, além do Genie 3, integra os modelos Nano Banana Pro e Gemini
Ele é composto por três recursos principais
1. World Sketching (esboço do mundo)
- Usa texto e imagens (geradas ou enviadas) para projetar ambientes vivos
- É possível definir personagens e formas de exploração, com suporte a várias formas de deslocamento, como caminhar, voar e dirigir
- A integração com o Nano Banana Pro permite visualizar previamente e ajustar detalhes do mundo
- É possível escolher a perspectiva em primeira ou terceira pessoa
2. World Exploration (exploração do mundo)
- O mundo gerado se torna um ambiente explorável, no qual caminhos são criados em tempo real conforme as ações do usuário
- É possível ajustar o ângulo da câmera durante a exploração
3. World Remixing (remix do mundo)
- Com base no prompt de um mundo existente, é possível reconstruir o mundo com uma nova interpretação
- Por meio da galeria ou do recurso de exploração aleatória, é possível explorar ou modificar mundos criados por outros usuários
- O mundo finalizado e o processo de exploração podem ser baixados em vídeo

Construindo IA responsável

O Project Genie é um protótipo experimental de pesquisa conduzido no Google Labs e operado de acordo com os princípios de desenvolvimento responsável de IA
Devido às limitações atuais do modelo, são indicadas as seguintes restrições
- Os mundos gerados podem diferir da realidade ou ser inconsistentes com o prompt e as leis da física
- Pode haver atraso no controle do personagem ou queda de responsividade
- Existe um limite de geração de 60 segundos
O recurso de mudança de eventos baseado em prompts, anunciado em agosto de 2025, ainda não está incluído
Futuras atualizações e melhorias poderão ser acompanhadas na página oficial do DeepMind

Planos futuros e expansão de acesso

O Project Genie foi desenvolvido com base em pesquisa colaborativa com testadores confiáveis
Este lançamento é uma etapa para entender como os usuários realmente utilizam world models
No momento, está disponível apenas para assinantes do Google AI Ultra nos EUA, com expansão para mais regiões prevista no futuro
No longo prazo, o Google pretende abrir a tecnologia de geração de mundos para mais usuários

1 comentários

GN⁺ 2026-01-30

Comentários do Hacker News

Ultimamente continuo pensando em The Experience Machine, de Andy Clark
É a teoria de que o cérebro humano não percebe o mundo diretamente, mas vivencia a realidade corrigindo com os sentidos uma simulação gerada internamente
Ou seja, vivemos dentro de um modelo generativo de alta resolução, e os sentidos servem para ajustar os sinais de erro desse modelo
Assim como o Genie 3 prevê o próximo quadro no espaço latente, o cérebro humano também tenta minimizar a diferença entre expectativa e experiência real por meio de Active Inference
No fim, a sensação de realidade seria não um registro direto do mundo externo, mas uma simulação interativa constantemente corrigida
- Do ponto de vista neurológico, isso já é uma ideia bastante estabelecida
  Por exemplo, os sonhos podem ser vistos como um caso em que o modelo interno opera livremente com a entrada sensorial bloqueada
- Como vídeos relacionados, recomendo o Why Your Brain Blinds You For 2 Hours Every Day, do kurzgesagt, e sua coletânea de fontes
- O Your Brain Hallucinates Your Conscious Reality, de Anil Seth, vai na mesma linha
  Esse tipo de tema já foi tratado há muito tempo também na filosofia e na religião, e é interessante pensar que a consciência humana constrói a realidade por meio de suas próprias projeções
- O pós-processamento das fotos de smartphone também pode servir como metáfora parecida
  Surge a pergunta: a partir de que momento isso deixa de ser uma foto e passa a ser uma obra impressionista calculada?
- Vale a pena ler também The Case Against Reality, de Donald Hoffman
Muita gente parece estar entendendo o Genie como apenas um produto para jogos ou filmes
Mas o verdadeiro objetivo é criar o “motor de imaginação” da próxima geração de IA e robôs, ou seja, um modelo de mundo que simula as consequências das ações para ajudar na tomada de decisão
- Também concordo. Diziam que os LLMs não tinham modelo de mundo, e agora isso parece ser o próximo passo
  Imagino uma estrutura que codifica vídeo do mundo real em certa taxa de quadros para ancorar a imaginação do modelo em dados reais, ramifica cenários possíveis de ação para avaliá-los e depois envia a melhor previsão para os motores
  Ajustar o timing não deve ser fácil, mas a direção geral já está visível
- Tenho uma opinião um pouco diferente. Se o objetivo é imaginação de verdade, acho que não é necessário decodificar vídeo
  O Genie gera vídeo como uma interface que humanos conseguem entender e depurar
  Ou seja, o objetivo é outro: um tipo de jogo experimental de IA para pesquisadores
- Mas esse tipo de estrutura tem custo alto demais. Para robótica, provavelmente vai ser necessária uma arquitetura totalmente diferente
- O Instagram também começou como um app para compartilhar fotos com amigos, mas hoje virou uma plataforma viciante
  Se o Genie se combinar com VR, talvez surja um ponto de virada distópico parecido
- Esse mapeamento de ambiente e geração alternativa de resultados por IA no fim das contas é o conceito de holodeck
  Mas eu ainda prefiro o risco e a vivacidade do mundo real
Fiquei muito feliz com a apresentação do Genie
Há alguns vídeos interessantes de usuários iniciais:
exploração urbana, simulação de helicóptero, estação espacial e Dunkin' Donuts, simulação de notebook, lontra piloto
- Eu também participei como early tester
  Criei vários mundos, como caminhar na Lua, encontrar Holmes e Watson em 221B Baker Street ou explorar um chá de bolhas gigante em meio a um mercado noturno de Taipei
  Também há um vídeo de demonstração
  Ainda é um protótipo experimental, mas parece uma pista do futuro
- Tecnicamente é impressionante, mas falta imersão
  É legal poder gerar assets de Unreal 5 com algumas palavras, mas na prática eu não gostaria de brincar assim
  Além disso, não tenho intenção de pagar custo computacional por segundo
- Eu realmente gostaria de ver uma versão que recriasse a era dos dinossauros
- Queria saber a opinião das pessoas sobre o Project Genie
O verdadeiro avanço do Genie é o fato de que dá para olhar para trás
Os simuladores de outros laboratórios não conseguiam manter consistência fora do campo de visão, mas o Genie resolve isso
- Ouvi dizer que o laboratório da Fei-Fei Li gera um mundo 3D de verdade
  Só que esse método provavelmente teria limitações para expressão animada
- É surpreendente que pesquisadores de ML só agora tenham percebido a necessidade de uma estrutura de cache explícita
- Nesse caso, fico curioso se ao voltar ao mesmo lugar uma semana depois a cena ainda seria mantida
Há um vídeo de entrevista com a equipe do Project Genie
Link no YouTube
O Genie é um protótipo de pesquisa que permite gerar, explorar e interagir em tempo real com mundos fotorrealistas infinitamente variados
Ele trata da transição de geração de vídeo passiva para mídia interativa, dos desafios técnicos de consistência de mundo e manutenção de memória, e do papel disso como campo de treinamento para agentes de IA
Quanto mais vejo esse tipo de tecnologia, mais eu quero passar tempo no mundo real
Dá vontade de desligar a tela e voltar a fazer as coisas que eu amo
- Tenho a mesma sensação. No momento em que vejo alguém digitando num teclado dentro de um vídeo, bate uma certa amargura
  Um mundo virtual criado a partir de cenas filmadas de verdade acaba transmitindo tristeza
- Eu amo IA, mas espero que esse tipo de tecnologia acabe nos lembrando do valor da experiência humana real
- Trabalhei a vida toda na indústria de tecnologia, mas agora sinto vontade de desligar tudo
- Ironicamente, esse tipo de avanço me faz acreditar ainda mais na hipótese da simulação
  Talvez a realidade também já seja uma simulação
- O céu está azul e faz sol, mas por preguiça dá até vontade de rodar uma simulação de caminhada
Isso me lembrou um projeto pessoal que apareceu no HN e treinava um modelo de mundo com vídeos de parque
Também havia uma demo interativa, e o Genie parece uma evolução daquela ideia
É uma pena que blogs e demos indie não sejam citados
- Exato, o conceito é parecido, mas a escala extrema é diferente
  O modelo do parque tinha 5 milhões de parâmetros, foi treinado com um vídeo de 15 minutos e rodava até em iPhone
  Já o Genie 3 é um modelo gigantesco com dezenas de bilhões de parâmetros, treinado com milhões de horas de vídeo
  Também estão surgindo modelos de porte intermediário, então talvez em 1 ou 2 anos seja possível rodar localmente em uma GPU gamer
  Exemplos: LingBot-World, Waypoint 1
Tudo isso lembra o tema do filme The Thirteenth Floor
Link do trailer
Queria que alguém criasse um mundo a partir deste GIF
Faz tempo que tenho curiosidade sobre isso. Por que a Meta(FB) não é mais agressiva com modelos de mundo?
Isso é justamente o núcleo da visão de metaverso, mas em vez disso deixaram Yann LeCun sair
- O LeCun causou fissuras internas com a falta de resultados e uma direção de pesquisa teimosa
  Não entrou na corrida dos LLMs e ficou focado apenas em teorias não comprovadas
  Como resultado, a Meta ficou para trás no grupo de liderança em IA, e o LeCun acabou saindo preservando o prestígio
- Eu compararia a diferença entre JEPA e Genie assim
  O JEPA é como um romancista que resume: “o cachorro corre em direção ao carteiro”
  O Genie é como um pintor que precisa desenhar diretamente a próxima cena para que a história exista
  Ou seja, o Genie faz geração quadro a quadro, enquanto o JEPA faz previsão em nível conceitual
- Concordo totalmente. Modelos de mundo são justamente a carta de salvação do investimento em Reality Labs
  Se isso não virar produto, talvez o projeto inteiro tenha que ser encerrado
- Os casos de fracasso não são divulgados. Na prática, é incerto onde a Meta realmente investiu
- No fundo, as pessoas não gostam de usar headsets de VR
  Por melhor que o conteúdo seja, isso ainda continua sendo um mercado de nicho

Project Genie: experimentando mundos infinitos e interativos

Visão geral do Project Genie

Evolução dos World Models

Como o Project Genie funciona

1. World Sketching (esboço do mundo)

2. World Exploration (exploração do mundo)

3. World Remixing (remix do mundo)

Construindo IA responsável

Planos futuros e expansão de acesso

Leituras relacionadas

1 comentários

Comentários do Hacker News