14 pontos por GN⁺ 2025-08-06 | 1 comentários | Compartilhar no WhatsApp
  • O primeiro modelo de mundo de uso geral capaz de gerar ambientes 3D interativos em tempo real apenas com prompts de texto
  • Suporta 24 fps, resolução 720p e consistência mantida por vários minutos, com grandes avanços em interatividade, realismo e persistência em relação ao Genie 2
  • Consegue gerar de forma natural e variada mundos virtuais sobre fenômenos físicos, ecossistemas, animações, contextos históricos e geográficos, entre outros temas
  • Com o recurso Promptable world events, o usuário pode controlar em tempo real eventos dinâmicos, como mudanças no clima e adição de objetos, por texto
  • Foi projetado para pesquisa com agentes e pode ser integrado a agentes SIMA, permitindo testar objetivos de longo prazo e sequências complexas de ações

Genie 3: a inovação na simulação de mundos

Contexto da evolução dos modelos de mundo

  • A DeepMind tem liderado a pesquisa em ambientes de simulação para treinamento de agentes de IA, open-ended learning e robótica
  • Modelos de mundo são sistemas de IA capazes de prever e reproduzir mudanças no ambiente e os resultados das ações dos agentes, sendo considerados uma etapa intermediária importante rumo à AGI
  • Após Genie 1 e 2, o Genie 3 é o primeiro modelo de mundo a oferecer ao mesmo tempo interatividade em tempo real e consistência visual e física

Principais recursos do Genie 3

  • Modelagem da natureza e de fenômenos físicos

    • Implementa de forma natural fenômenos do mundo real, como água, luz e diversas interações ambientais, apenas com prompts
  • Ecossistemas complexos e animações

    • Permite gerar a dinâmica de ecossistemas, como comportamento animal e crescimento de plantas, além de mundos animados baseados na imaginação
  • Reprodução de contextos históricos e geográficos

    • Pode construir em tempo real ambientes virtuais com diversos espaços que atravessam fronteiras geográficas e temporais
  • Interação e controle em tempo real

    • Visualiza mudanças imediatas no mundo em 24 fps e 720p de acordo com a entrada do usuário
    • Lembra posições e estados visitados anteriormente, mantendo consistência física e visual por vários minutos
  • Promptable World Events

    • Permite disparar em tempo real eventos de mudança ambiental, como alterações climáticas e adição de objetos e personagens, via prompt de texto
    • Além do controle de exploração, oferece amplo potencial de uso para cenários de “e se” e criação de situações incomuns
  • Pesquisa e experimentação com agentes

    • Agentes de IA especializados em ambientes 3D, como o SIMA, podem perseguir objetivos complexos dentro do mundo do Genie 3 e ter sua capacidade de executar sequências longas validada
    • Os objetivos do agente não são compartilhados com o Genie 3; os resultados são gerados apenas a partir da sequência de ações e da simulação do mundo

Desafios técnicos e resultados

  • No processo de geração autorregressiva quadro a quadro, é necessário refletir em tempo real tanto a entrada do usuário quanto as sequências anteriores, o que exige tecnologia de alta complexidade
  • Diferentemente de NeRF, Gaussian Splatting e outras abordagens existentes, o Genie 3 é puramente baseado em geração, sem representação 3D explícita, permitindo ambientes muito mais dinâmicos e ricos

Limitações e desafios

  • Faixa de ações limitada: as mudanças de ambiente baseadas em prompt são variadas, mas as ações que podem ser executadas diretamente ainda são limitadas
  • Interação entre múltiplos agentes: a simulação precisa de interações entre vários agentes continua sendo um tema de pesquisa
  • Limites na reprodução de locais do mundo real: não oferece precisão perfeita de espaços geográficos reais
  • Limitações na renderização de texto: representações textuais claras só são possíveis quando inseridas explicitamente
  • Limite de tempo de interação: no momento, suporta apenas interações contínuas de alguns minutos

Responsabilidade e escopo de divulgação

  • As características open-ended e de geração em tempo real do Genie 3 trazem novas questões de segurança e ética, por isso a equipe trabalha em estreita colaboração com o Responsible Development & Innovation Team
  • Inicialmente, ele será oferecido em formato de research preview apenas para um grupo limitado de pesquisadores e criadores, com expansão gradual e definição de medidas de mitigação de risco com base no feedback

Futuro e perspectivas de uso

  • O Genie 3 apresenta novas possibilidades em várias áreas, como educação, treinamento, aprendizado de agentes de IA e validação de desempenho
  • Espera-se que desempenhe um papel central na pesquisa de AGI (inteligência artificial geral) e que seja desenvolvido com segurança em uma direção benéfica para a humanidade

1 comentários

 
GN⁺ 2025-08-06
Comentários do Hacker News
  • Se alguém aqui trabalha nessa área ou tem conhecimento especializado, queria saber se consegue especular como o Genie 3 foi implementado em termos de tecnologia, arquitetura, design de sistema e requisitos computacionais. Como há pouca informação pública no momento, gostaria especialmente de ouvir como especialistas da área estimariam ou infeririam como isso foi construído

  • O fato de ser possível manter consistência por vários minutos em 720p em tempo real está muito além do que eu imaginava. Ouvi dizer que a consistência do Genie 3 é uma emergent capability que surgiu com o escalonamento do modelo. Ou seja, parece menos algo melhorado de propósito na arquitetura e mais uma capacidade que apareceu incidentalmente ao tornar o modelo maior. Alguém que usou diretamente resumiu as limitações (link no X):

    • Simulação física ainda é difícil, e há casos claros de falha em experimentos de física intuitiva usados em psicologia, como empilhar blocos

    • Interações sociais ou situações com vários agentes envolvidos são difíceis, e jogos de duelo 1 contra 1 não funcionam bem

    • Instruções complexas ou lógica de jogo, como pegar uma chave para abrir uma porta, também não funcionam bem

    • O espaço de ações também é limitado

    • Ainda está longe de ser uma engine de jogo de verdade, mas claramente é uma oportunidade de ver diretamente um fragmento do futuro Apesar dessas limitações, dá a sensação de que modelos de mundo vão ter um papel mais importante do que se imagina em robótica e em IA no mundo real. Talvez os robôs do futuro aprendam sonhando

    • Tenho muita curiosidade sobre como o multiplayer poderia funcionar, não só do ponto de vista logístico e técnico, mas também de gameplay

    • Jogos são claramente um caso de uso importante, mas no fundo isso parece ter sido desenvolvido com o objetivo de gerar synthetic data para treinar robôs de armazém do Google. Veja a matéria do The Guardian e o post no HN de 4 meses antes do lançamento do Gemini Robot

    • Eu não esperava que o avanço tecnológico fosse tão rápido. Alguns meses atrás escrevi que manipular a saída de modelos de mundo seria a próxima etapa dos jogos AAA (post do blog), mas naquela época ainda achava que faltavam alguns anos. Até brinquei que a Rockstar poderia se distrair com modelos de mundo durante o desenvolvimento do GTA6, mas agora isso já não parece tão absurdo. Vendo o progresso desde o surgimento do GameNGen, até penso que isso pode ultrapassar o GTA6 antes de ele sair

    • Nesse nível, visualmente parece algo muito bom para robótica, porque pode fechar o reality gap. Claro que a simulação física continua sendo um desafio separado

    • Mais um momento em que a bitter lesson se aplica

  • É um avanço realmente animador, provavelmente era isso que o Demis estava provocando no mês passado (tweet relacionado). Fazendo algumas suposições sobre os detalhes técnicos a partir dos clipes divulgados:

    1. Há um efeito de “salto” nas texturas a cada 4 frames, então talvez seja um VAE com downscale temporal de 4x, o que implicaria no mínimo 4 frames de latência de interação, a menos que o VAE dê suporte a condicionamento por controle. Não vi vídeo em tempo real, mas em uma cena eles misturam gravação de tela com b-roll do teclado
    2. Em movimentos rápidos dá para ver bloqueio espacial de 16x16, então provavelmente também há downscale de 16x16 no eixo espacial do VAE. Combinando isso com o ponto anterior, seriam 21.600 tokens por segundo, cerca de 1,3 milhão de tokens por minuto
    3. O primeiro frame de cada clipe parece mais nítido e menos com cara de videogame do que os frames seguintes, então parece que aplicaram t2i (text to image) + i2w (image to world). Minha aposta é um sistema com t2i treinado em dados gerais e i2w ajustado com dados de jogos com controles rotulados. Com o passar do tempo, há uma tendência de contraste e saturação ficarem mais fortes, mas menos do que em outros modelos de vídeo autorregressivos (vídeo de exemplo)
    • Sobre latência, calculei a partir deste vídeo de gameplay em tempo real que há cerca de 1,1 segundo entre o pressionamento da tecla e o movimento do personagem, algo como 33 frames a 30 fps. Já no relato de um usuário do preview de pesquisa do Genie 3, foi dito que “há algum atraso nos controles, mas isso vem mais da infraestrutura que entrega o serviço do que do próprio modelo”, então boa parte da latência deve vir da estrutura de streaming cliente/servidor
  • Eu queria que eles divulgassem mais sobre como isso funciona. Seria ótimo ter ao menos um artigo para pesquisadores. Meu palpite é que é parecido com modelos de geração de vídeo já existentes, mas condicionados por entradas como movement direction, viewangle etc. Acho que são entradas absolutas, não relativas, e talvez haja alguma simulação de estado envolvida, embora os efeitos de colisão com objetos vistos no vídeo de demonstração sugiram que talvez não, ou talvez o eixo superior esteja sendo gerado em 2D. Claramente parece treinado com dados baseados em engines de jogo, porque há artefatos de reflexo em screen space. Também parece ter recebido dados adicionais baseados em fotogrametria/splats, e a resolução dos elementos irreais parece especialmente baixa. Há também inconsistências perceptíveis na demo:

    • A cena do wingsuit parece ter qualidade de imagem mais baixa, talvez inicializada com imagem em alta resolução?
    • Na demo do jardim, a geometria parece mudar entre as variações. A segunda mangueira aparece só em uma versão, como se uma nova geometria fosse gerada na hora toda vez que se olha
    • Na demo da escola, chama atenção um carro meio cortado do lado de fora da janela e aparecem padrões repetitivos. Quando um transformer tem poucos parâmetros, padrões de loop infinito costumam surgir com frequência, o que também pode indicar potencial de escala. Parece que usam greedy sampling por estabilidade
    • Na cena do museu, há reflexos estranhos na caixa de ametista, e a parte traseira do mamute aparece sem reflexo só na borda direita da caixa, mas de repente salta quando passa a ser vista através dela. O reflexo da presa também surge de repente, o que não tem relação com efeito Fresnel
  • É realmente impressionante, mas faltam muitos detalhes. Não concordo totalmente com outros comentários dizendo que, se você não pode testar por conta própria, então não significa nada, mas me surpreende a mudança: poucos anos atrás, um anúncio desses certamente viria acompanhado de um artigo. Agora temos algo que parece parte de um paper, com equipe, demo e citação em bibtex, mas sem compartilhar a pesquisa em si. Conversando com um conhecido, o que me preocupa nem é a capacidade imediata da IA, e sim que a lógica econômica passou quase instantaneamente do modo pesquisa/acadêmico para “extração de valor”. Basear políticas e economia nisso, mesmo que indiretamente, também traz grandes riscos. Não sou contra comercialização, mas ver ao mesmo tempo anúncios de produto com cara de paper e alertas de matemáticos sobre cortes recentes no apoio à pesquisa acadêmica enfraquece a confiança no longo prazo

  • Ainda acho difícil imaginar que gerar “o próximo pixel” por previsão seja melhor do que construir a cena de forma determinística e renderizá-la como sempre foi feito. Por exemplo, você pode usar IA para criar texturas, modelos e sequências de movimento, e então deixar a placa de vídeo combinar tudo isso para renderizar a cena, permitindo ao usuário manipular livremente o modelo em wireframe, as texturas, a posição da câmera etc.

    • Se você precisar de qualidade visual acima de um certo nível, chega um momento em que prever “o próximo pixel” fica mais barato do que renderização tradicional. O modelo pode descrever prever o que existe ao dar zoom infinito em uma superfície. Isso reduz desafios técnicos que seriam difíceis de alcançar com renderização tradicional
  • Parece revolucionário. Eu esperava que isso viesse, mas encarar de frente ainda assim é algo novo. Tem limitações, mas é um ponto de partida. Até agora, nas engines de jogo, a essência era engenheiros ou desenvolvedores ajustarem a posição de formas geométricas como triângulos para bater exatamente com os pixels. Agora parece que o computador literalmente “pinta” a imagem a cada frame, sem sequer fazer os cálculos com triângulos

  • Renderização de texto. Texto claro e legível só pode ser gerado de forma consistente quando está incluído na descrição do mundo de entrada Isso me lembra de quando as IAs de imagem antigamente não conseguiam gerar texto. Esse problema também foi resolvido logo depois, então parece questão de tempo

    • E a qualidade ao desenhar mãos era mais de 10 vezes pior também. Agora mãos, texto e imagens estão todos melhores, então acho que vamos voltar a brincar de “Onde está Wally?” para achar defeitos. Algum dia talvez até apareçam vídeos com zoom infinito e marca-d’água de IA escondida no nível de um terço de pixel. Pessoalmente, a área de augmented video me parece mais interessante. Tem gente tentando isso em ferramentas como Runway, com vídeos no estilo stormtrooper vlog, mas o preço é alto demais

    • Ainda é cedo para dizer que o problema do texto foi completamente resolvido. Melhorou bastante, com certeza, mas o gpt-image-1 também às vezes falha na geração de texto

    • O prompt e o conteúdo gerado no quadro-negro diferem na presença ou ausência de hífen (-)

  • Foi a primeira apresentação que realmente abalou várias vezes meu senso de realidade. Foi uma experiência de explodir a mente

  • O avanço da IA generativa está me deixando cada vez mais deprimido. Parece que a criatividade está sendo tirada de nós cada vez mais rápido. Se a tecnologia, no estágio atual, ficasse como ferramenta para ajudar a criação humana, tudo bem, mas agora ela parece mirar substituição total. Claro, dá para dizer “você ainda pode fazer música ou desenhar por conta própria”, mas historicamente obras de arte não surgem apenas para si mesmo e sim em um contexto social de compartilhamento. Então, no fim, o que sobra para nós? Só trabalho simples que ainda não foi automatizado, e quando isso também for automatizado, o que restará ao ser humano? Vamos para um futuro em que só recebemos estímulos personalizados no cérebro para elevar dopamina até ele estragar, algo já parcialmente realizado com coisas como TikTok? Se tudo for automatizado, nem sei como a estrutura econômica poderia se sustentar. Talvez isso possa até ser uma interpretação do paradoxo de Fermi. Um mundo em que ninguém mais entende a tecnologia o bastante para mexer nela, em que até o acesso técnico básico desaparece, e os recursos já foram irreversivelmente esgotados. Nessas condições, fico pensando como ainda seria possível encontrar sentido na vida

    • Há inúmeros escritores, pintores e artistas famosos que contradizem a ideia de que obras de arte não são feitas puramente para si mesmos, sem compartilhamento com o público. Kafka é um exemplo clássico, e houve muitos casos de obras importantes descobertas só depois da morte do autor e contra sua vontade. Isso não elimina o restante do argumento, mas a arte sempre existiu para si mesma também, e continuará existindo

    • Sobre a frase “não consigo aceitar o argumento de quem diz estar feliz por viver nesta época”, alegria é um sentimento, não um ato lógico. É uma emoção que vem da esperança e da imaginação. Otimismo não precisa de lógica. E a questão de encontrar sentido na vida não começou com a chegada dos LLMs; é um tema debatido há milhares de anos. Por exemplo, no [Bhagavad Gita], o protagonista pergunta a Deus “se o resultado é sem sentido, por que devo agir?”, mas sem uma resposta definitiva, restando apenas uma reflexão contemplativa. Essa pergunta acompanha a humanidade há muito tempo, desde antes da inteligência artificial

    • É parecido com o fato de que hoje já não precisamos caminhar ou levantar peso para sobreviver, então, se não nos exercitamos, vamos ficando mais fracos. No futuro, quando a maioria das pessoas já não precisar pensar, criar ou investigar para viver, elas vão ficando mais burras. Só uma minoria vai continuar treinando a mente, mas nem assim conseguirá ser mais inteligente que as máquinas. Do mesmo modo que até o maior atleta não consegue vencer uma máquina

    • Mesmo no mundo em que já vivemos hoje, há músicas feitas por gente que toca muito melhor do que eu acumuladas no YouTube e no Spotify. Então vejo essa mudança como uma continuação disso

    • Não concordo com você. Passei a vida compondo centenas de músicas e nunca compartilhei nenhuma com ninguém, e todos os meus amigos músicos fazem o mesmo. O ato de criar é algo separado da existência de uma audiência. Na verdade, é quase o contrário. E a história da produção musical também foi reduzindo gradualmente a barreira de entrada com novas tecnologias; no passado, o acesso era bloqueado por causa de equipamentos caros