6 pontos por GN⁺ 2026-01-30 | 1 comentários | Compartilhar no WhatsApp
  • O Project Genie do Google é um protótipo experimental de pesquisa que permite aos usuários criar, explorar e remixar mundos virtuais interativos usando texto e imagens
  • Baseado no modelo Genie 3, ele gera caminhos e ambientes em tempo real de acordo com os movimentos do usuário
  • É oferecido em formato de aplicativo web, com integração dos modelos Nano Banana Pro e Gemini para oferecer suporte a recursos de esboço, exploração e remix de mundos
  • Devido às limitações do modelo, a versão inicial tem restrições como inconsistências com as leis da física, atraso no controle de personagens e limite de 60 segundos
  • Atualmente está disponível para assinantes do Google AI Ultra nos EUA (maiores de 18 anos), com expansão planejada para mais regiões no futuro

Visão geral do Project Genie

  • O Project Genie é um protótipo experimental de pesquisa desenvolvido pelo Google DeepMind com base no Genie 3, oferecendo um ambiente em que os usuários podem criar, explorar e remixar mundos virtuais diretamente
    • Disponível para assinantes do Google AI Ultra nos EUA (maiores de 18 anos)
    • Os usuários podem gerar mundos por meio de prompts de texto e imagens e explorá-los em tempo real
  • Este projeto é um primeiro passo para tornar pública a tecnologia de geração de mundos imersivos para usuários em geral e representa uma expansão da pesquisa em world models

Evolução dos World Models

  • World models são sistemas que simulam mudanças dinâmicas no ambiente e preveem o impacto das ações
  • O Google DeepMind busca ir além da pesquisa de agentes para ambientes específicos, como xadrez ou Go, com o objetivo de desenvolver sistemas de AGI capazes de explorar a diversidade do mundo real
  • O Genie 3 gera caminhos em tempo real conforme o usuário se move e simula interações físicas
    • Dá suporte à geração de mundos dinâmicos, em vez de snapshots 3D estáticos
    • Pode ser aplicado em diversos cenários, como robótica, animação, ficção e exploração de lugares históricos

Como o Project Genie funciona

  • Trata-se de um protótipo baseado na web que, além do Genie 3, integra os modelos Nano Banana Pro e Gemini
  • Ele é composto por três recursos principais
  • 1. World Sketching (esboço do mundo)

    • Usa texto e imagens (geradas ou enviadas) para projetar ambientes vivos
    • É possível definir personagens e formas de exploração, com suporte a várias formas de deslocamento, como caminhar, voar e dirigir
    • A integração com o Nano Banana Pro permite visualizar previamente e ajustar detalhes do mundo
    • É possível escolher a perspectiva em primeira ou terceira pessoa
  • 2. World Exploration (exploração do mundo)

    • O mundo gerado se torna um ambiente explorável, no qual caminhos são criados em tempo real conforme as ações do usuário
    • É possível ajustar o ângulo da câmera durante a exploração
  • 3. World Remixing (remix do mundo)

    • Com base no prompt de um mundo existente, é possível reconstruir o mundo com uma nova interpretação
    • Por meio da galeria ou do recurso de exploração aleatória, é possível explorar ou modificar mundos criados por outros usuários
    • O mundo finalizado e o processo de exploração podem ser baixados em vídeo

Construindo IA responsável

  • O Project Genie é um protótipo experimental de pesquisa conduzido no Google Labs e operado de acordo com os princípios de desenvolvimento responsável de IA
  • Devido às limitações atuais do modelo, são indicadas as seguintes restrições
    • Os mundos gerados podem diferir da realidade ou ser inconsistentes com o prompt e as leis da física
    • Pode haver atraso no controle do personagem ou queda de responsividade
    • Existe um limite de geração de 60 segundos
  • O recurso de mudança de eventos baseado em prompts, anunciado em agosto de 2025, ainda não está incluído
  • Futuras atualizações e melhorias poderão ser acompanhadas na página oficial do DeepMind

Planos futuros e expansão de acesso

  • O Project Genie foi desenvolvido com base em pesquisa colaborativa com testadores confiáveis
  • Este lançamento é uma etapa para entender como os usuários realmente utilizam world models
  • No momento, está disponível apenas para assinantes do Google AI Ultra nos EUA, com expansão para mais regiões prevista no futuro
  • No longo prazo, o Google pretende abrir a tecnologia de geração de mundos para mais usuários

1 comentários

 
GN⁺ 2026-01-30
Comentários do Hacker News
  • Ultimamente continuo pensando em The Experience Machine, de Andy Clark
    É a teoria de que o cérebro humano não percebe o mundo diretamente, mas vivencia a realidade corrigindo com os sentidos uma simulação gerada internamente
    Ou seja, vivemos dentro de um modelo generativo de alta resolução, e os sentidos servem para ajustar os sinais de erro desse modelo
    Assim como o Genie 3 prevê o próximo quadro no espaço latente, o cérebro humano também tenta minimizar a diferença entre expectativa e experiência real por meio de Active Inference
    No fim, a sensação de realidade seria não um registro direto do mundo externo, mas uma simulação interativa constantemente corrigida

    • Do ponto de vista neurológico, isso já é uma ideia bastante estabelecida
      Por exemplo, os sonhos podem ser vistos como um caso em que o modelo interno opera livremente com a entrada sensorial bloqueada
    • Como vídeos relacionados, recomendo o Why Your Brain Blinds You For 2 Hours Every Day, do kurzgesagt, e sua coletânea de fontes
    • O Your Brain Hallucinates Your Conscious Reality, de Anil Seth, vai na mesma linha
      Esse tipo de tema já foi tratado há muito tempo também na filosofia e na religião, e é interessante pensar que a consciência humana constrói a realidade por meio de suas próprias projeções
    • O pós-processamento das fotos de smartphone também pode servir como metáfora parecida
      Surge a pergunta: a partir de que momento isso deixa de ser uma foto e passa a ser uma obra impressionista calculada?
    • Vale a pena ler também The Case Against Reality, de Donald Hoffman
  • Muita gente parece estar entendendo o Genie como apenas um produto para jogos ou filmes
    Mas o verdadeiro objetivo é criar o “motor de imaginação” da próxima geração de IA e robôs, ou seja, um modelo de mundo que simula as consequências das ações para ajudar na tomada de decisão

    • Também concordo. Diziam que os LLMs não tinham modelo de mundo, e agora isso parece ser o próximo passo
      Imagino uma estrutura que codifica vídeo do mundo real em certa taxa de quadros para ancorar a imaginação do modelo em dados reais, ramifica cenários possíveis de ação para avaliá-los e depois envia a melhor previsão para os motores
      Ajustar o timing não deve ser fácil, mas a direção geral já está visível
    • Tenho uma opinião um pouco diferente. Se o objetivo é imaginação de verdade, acho que não é necessário decodificar vídeo
      O Genie gera vídeo como uma interface que humanos conseguem entender e depurar
      Ou seja, o objetivo é outro: um tipo de jogo experimental de IA para pesquisadores
    • Mas esse tipo de estrutura tem custo alto demais. Para robótica, provavelmente vai ser necessária uma arquitetura totalmente diferente
    • O Instagram também começou como um app para compartilhar fotos com amigos, mas hoje virou uma plataforma viciante
      Se o Genie se combinar com VR, talvez surja um ponto de virada distópico parecido
    • Esse mapeamento de ambiente e geração alternativa de resultados por IA no fim das contas é o conceito de holodeck
      Mas eu ainda prefiro o risco e a vivacidade do mundo real
  • Fiquei muito feliz com a apresentação do Genie
    Há alguns vídeos interessantes de usuários iniciais:
    exploração urbana, simulação de helicóptero, estação espacial e Dunkin' Donuts, simulação de notebook, lontra piloto

    • Eu também participei como early tester
      Criei vários mundos, como caminhar na Lua, encontrar Holmes e Watson em 221B Baker Street ou explorar um chá de bolhas gigante em meio a um mercado noturno de Taipei
      Também há um vídeo de demonstração
      Ainda é um protótipo experimental, mas parece uma pista do futuro
    • Tecnicamente é impressionante, mas falta imersão
      É legal poder gerar assets de Unreal 5 com algumas palavras, mas na prática eu não gostaria de brincar assim
      Além disso, não tenho intenção de pagar custo computacional por segundo
    • Eu realmente gostaria de ver uma versão que recriasse a era dos dinossauros
    • Queria saber a opinião das pessoas sobre o Project Genie
  • O verdadeiro avanço do Genie é o fato de que dá para olhar para trás
    Os simuladores de outros laboratórios não conseguiam manter consistência fora do campo de visão, mas o Genie resolve isso

    • Ouvi dizer que o laboratório da Fei-Fei Li gera um mundo 3D de verdade
      Só que esse método provavelmente teria limitações para expressão animada
    • É surpreendente que pesquisadores de ML só agora tenham percebido a necessidade de uma estrutura de cache explícita
    • Nesse caso, fico curioso se ao voltar ao mesmo lugar uma semana depois a cena ainda seria mantida
  • Há um vídeo de entrevista com a equipe do Project Genie
    Link no YouTube
    O Genie é um protótipo de pesquisa que permite gerar, explorar e interagir em tempo real com mundos fotorrealistas infinitamente variados
    Ele trata da transição de geração de vídeo passiva para mídia interativa, dos desafios técnicos de consistência de mundo e manutenção de memória, e do papel disso como campo de treinamento para agentes de IA

  • Quanto mais vejo esse tipo de tecnologia, mais eu quero passar tempo no mundo real
    Dá vontade de desligar a tela e voltar a fazer as coisas que eu amo

    • Tenho a mesma sensação. No momento em que vejo alguém digitando num teclado dentro de um vídeo, bate uma certa amargura
      Um mundo virtual criado a partir de cenas filmadas de verdade acaba transmitindo tristeza
    • Eu amo IA, mas espero que esse tipo de tecnologia acabe nos lembrando do valor da experiência humana real
    • Trabalhei a vida toda na indústria de tecnologia, mas agora sinto vontade de desligar tudo
    • Ironicamente, esse tipo de avanço me faz acreditar ainda mais na hipótese da simulação
      Talvez a realidade também já seja uma simulação
    • O céu está azul e faz sol, mas por preguiça dá até vontade de rodar uma simulação de caminhada
  • Isso me lembrou um projeto pessoal que apareceu no HN e treinava um modelo de mundo com vídeos de parque
    Também havia uma demo interativa, e o Genie parece uma evolução daquela ideia
    É uma pena que blogs e demos indie não sejam citados

    • Exato, o conceito é parecido, mas a escala extrema é diferente
      O modelo do parque tinha 5 milhões de parâmetros, foi treinado com um vídeo de 15 minutos e rodava até em iPhone
      Já o Genie 3 é um modelo gigantesco com dezenas de bilhões de parâmetros, treinado com milhões de horas de vídeo
      Também estão surgindo modelos de porte intermediário, então talvez em 1 ou 2 anos seja possível rodar localmente em uma GPU gamer
      Exemplos: LingBot-World, Waypoint 1
  • Tudo isso lembra o tema do filme The Thirteenth Floor
    Link do trailer

  • Queria que alguém criasse um mundo a partir deste GIF

  • Faz tempo que tenho curiosidade sobre isso. Por que a Meta(FB) não é mais agressiva com modelos de mundo?
    Isso é justamente o núcleo da visão de metaverso, mas em vez disso deixaram Yann LeCun sair

    • O LeCun causou fissuras internas com a falta de resultados e uma direção de pesquisa teimosa
      Não entrou na corrida dos LLMs e ficou focado apenas em teorias não comprovadas
      Como resultado, a Meta ficou para trás no grupo de liderança em IA, e o LeCun acabou saindo preservando o prestígio
    • Eu compararia a diferença entre JEPA e Genie assim
      O JEPA é como um romancista que resume: “o cachorro corre em direção ao carteiro”
      O Genie é como um pintor que precisa desenhar diretamente a próxima cena para que a história exista
      Ou seja, o Genie faz geração quadro a quadro, enquanto o JEPA faz previsão em nível conceitual
    • Concordo totalmente. Modelos de mundo são justamente a carta de salvação do investimento em Reality Labs
      Se isso não virar produto, talvez o projeto inteiro tenha que ser encerrado
    • Os casos de fracasso não são divulgados. Na prática, é incerto onde a Meta realmente investiu
    • No fundo, as pessoas não gostam de usar headsets de VR
      Por melhor que o conteúdo seja, isso ainda continua sendo um mercado de nicho