Google DeepMind revela o modelo de mundo Genie 3
(deepmind.google)- O primeiro modelo de mundo de uso geral capaz de gerar ambientes 3D interativos em tempo real apenas com prompts de texto
- Suporta 24 fps, resolução 720p e consistência mantida por vários minutos, com grandes avanços em interatividade, realismo e persistência em relação ao Genie 2
- Consegue gerar de forma natural e variada mundos virtuais sobre fenômenos físicos, ecossistemas, animações, contextos históricos e geográficos, entre outros temas
- Com o recurso Promptable world events, o usuário pode controlar em tempo real eventos dinâmicos, como mudanças no clima e adição de objetos, por texto
- Foi projetado para pesquisa com agentes e pode ser integrado a agentes SIMA, permitindo testar objetivos de longo prazo e sequências complexas de ações
Genie 3: a inovação na simulação de mundos
Contexto da evolução dos modelos de mundo
- A DeepMind tem liderado a pesquisa em ambientes de simulação para treinamento de agentes de IA, open-ended learning e robótica
- Modelos de mundo são sistemas de IA capazes de prever e reproduzir mudanças no ambiente e os resultados das ações dos agentes, sendo considerados uma etapa intermediária importante rumo à AGI
- Após Genie 1 e 2, o Genie 3 é o primeiro modelo de mundo a oferecer ao mesmo tempo interatividade em tempo real e consistência visual e física
Principais recursos do Genie 3
-
Modelagem da natureza e de fenômenos físicos
- Implementa de forma natural fenômenos do mundo real, como água, luz e diversas interações ambientais, apenas com prompts
-
Ecossistemas complexos e animações
- Permite gerar a dinâmica de ecossistemas, como comportamento animal e crescimento de plantas, além de mundos animados baseados na imaginação
-
Reprodução de contextos históricos e geográficos
- Pode construir em tempo real ambientes virtuais com diversos espaços que atravessam fronteiras geográficas e temporais
-
Interação e controle em tempo real
- Visualiza mudanças imediatas no mundo em 24 fps e 720p de acordo com a entrada do usuário
- Lembra posições e estados visitados anteriormente, mantendo consistência física e visual por vários minutos
-
Promptable World Events
- Permite disparar em tempo real eventos de mudança ambiental, como alterações climáticas e adição de objetos e personagens, via prompt de texto
- Além do controle de exploração, oferece amplo potencial de uso para cenários de “e se” e criação de situações incomuns
-
Pesquisa e experimentação com agentes
- Agentes de IA especializados em ambientes 3D, como o SIMA, podem perseguir objetivos complexos dentro do mundo do Genie 3 e ter sua capacidade de executar sequências longas validada
- Os objetivos do agente não são compartilhados com o Genie 3; os resultados são gerados apenas a partir da sequência de ações e da simulação do mundo
Desafios técnicos e resultados
- No processo de geração autorregressiva quadro a quadro, é necessário refletir em tempo real tanto a entrada do usuário quanto as sequências anteriores, o que exige tecnologia de alta complexidade
- Diferentemente de NeRF, Gaussian Splatting e outras abordagens existentes, o Genie 3 é puramente baseado em geração, sem representação 3D explícita, permitindo ambientes muito mais dinâmicos e ricos
Limitações e desafios
- Faixa de ações limitada: as mudanças de ambiente baseadas em prompt são variadas, mas as ações que podem ser executadas diretamente ainda são limitadas
- Interação entre múltiplos agentes: a simulação precisa de interações entre vários agentes continua sendo um tema de pesquisa
- Limites na reprodução de locais do mundo real: não oferece precisão perfeita de espaços geográficos reais
- Limitações na renderização de texto: representações textuais claras só são possíveis quando inseridas explicitamente
- Limite de tempo de interação: no momento, suporta apenas interações contínuas de alguns minutos
Responsabilidade e escopo de divulgação
- As características open-ended e de geração em tempo real do Genie 3 trazem novas questões de segurança e ética, por isso a equipe trabalha em estreita colaboração com o Responsible Development & Innovation Team
- Inicialmente, ele será oferecido em formato de research preview apenas para um grupo limitado de pesquisadores e criadores, com expansão gradual e definição de medidas de mitigação de risco com base no feedback
Futuro e perspectivas de uso
- O Genie 3 apresenta novas possibilidades em várias áreas, como educação, treinamento, aprendizado de agentes de IA e validação de desempenho
- Espera-se que desempenhe um papel central na pesquisa de AGI (inteligência artificial geral) e que seja desenvolvido com segurança em uma direção benéfica para a humanidade
1 comentários
Comentários do Hacker News
Se alguém aqui trabalha nessa área ou tem conhecimento especializado, queria saber se consegue especular como o Genie 3 foi implementado em termos de tecnologia, arquitetura, design de sistema e requisitos computacionais. Como há pouca informação pública no momento, gostaria especialmente de ouvir como especialistas da área estimariam ou infeririam como isso foi construído
O fato de ser possível manter consistência por vários minutos em 720p em tempo real está muito além do que eu imaginava. Ouvi dizer que a consistência do Genie 3 é uma emergent capability que surgiu com o escalonamento do modelo. Ou seja, parece menos algo melhorado de propósito na arquitetura e mais uma capacidade que apareceu incidentalmente ao tornar o modelo maior. Alguém que usou diretamente resumiu as limitações (link no X):
Simulação física ainda é difícil, e há casos claros de falha em experimentos de física intuitiva usados em psicologia, como empilhar blocos
Interações sociais ou situações com vários agentes envolvidos são difíceis, e jogos de duelo 1 contra 1 não funcionam bem
Instruções complexas ou lógica de jogo, como pegar uma chave para abrir uma porta, também não funcionam bem
O espaço de ações também é limitado
Ainda está longe de ser uma engine de jogo de verdade, mas claramente é uma oportunidade de ver diretamente um fragmento do futuro Apesar dessas limitações, dá a sensação de que modelos de mundo vão ter um papel mais importante do que se imagina em robótica e em IA no mundo real. Talvez os robôs do futuro aprendam sonhando
Tenho muita curiosidade sobre como o multiplayer poderia funcionar, não só do ponto de vista logístico e técnico, mas também de gameplay
Jogos são claramente um caso de uso importante, mas no fundo isso parece ter sido desenvolvido com o objetivo de gerar synthetic data para treinar robôs de armazém do Google. Veja a matéria do The Guardian e o post no HN de 4 meses antes do lançamento do Gemini Robot
Eu não esperava que o avanço tecnológico fosse tão rápido. Alguns meses atrás escrevi que manipular a saída de modelos de mundo seria a próxima etapa dos jogos AAA (post do blog), mas naquela época ainda achava que faltavam alguns anos. Até brinquei que a Rockstar poderia se distrair com modelos de mundo durante o desenvolvimento do GTA6, mas agora isso já não parece tão absurdo. Vendo o progresso desde o surgimento do GameNGen, até penso que isso pode ultrapassar o GTA6 antes de ele sair
Nesse nível, visualmente parece algo muito bom para robótica, porque pode fechar o reality gap. Claro que a simulação física continua sendo um desafio separado
Mais um momento em que a bitter lesson se aplica
É um avanço realmente animador, provavelmente era isso que o Demis estava provocando no mês passado (tweet relacionado). Fazendo algumas suposições sobre os detalhes técnicos a partir dos clipes divulgados:
Eu queria que eles divulgassem mais sobre como isso funciona. Seria ótimo ter ao menos um artigo para pesquisadores. Meu palpite é que é parecido com modelos de geração de vídeo já existentes, mas condicionados por entradas como movement direction, viewangle etc. Acho que são entradas absolutas, não relativas, e talvez haja alguma simulação de estado envolvida, embora os efeitos de colisão com objetos vistos no vídeo de demonstração sugiram que talvez não, ou talvez o eixo superior esteja sendo gerado em 2D. Claramente parece treinado com dados baseados em engines de jogo, porque há artefatos de reflexo em screen space. Também parece ter recebido dados adicionais baseados em fotogrametria/splats, e a resolução dos elementos irreais parece especialmente baixa. Há também inconsistências perceptíveis na demo:
É realmente impressionante, mas faltam muitos detalhes. Não concordo totalmente com outros comentários dizendo que, se você não pode testar por conta própria, então não significa nada, mas me surpreende a mudança: poucos anos atrás, um anúncio desses certamente viria acompanhado de um artigo. Agora temos algo que parece parte de um paper, com equipe, demo e citação em bibtex, mas sem compartilhar a pesquisa em si. Conversando com um conhecido, o que me preocupa nem é a capacidade imediata da IA, e sim que a lógica econômica passou quase instantaneamente do modo pesquisa/acadêmico para “extração de valor”. Basear políticas e economia nisso, mesmo que indiretamente, também traz grandes riscos. Não sou contra comercialização, mas ver ao mesmo tempo anúncios de produto com cara de paper e alertas de matemáticos sobre cortes recentes no apoio à pesquisa acadêmica enfraquece a confiança no longo prazo
Ainda acho difícil imaginar que gerar “o próximo pixel” por previsão seja melhor do que construir a cena de forma determinística e renderizá-la como sempre foi feito. Por exemplo, você pode usar IA para criar texturas, modelos e sequências de movimento, e então deixar a placa de vídeo combinar tudo isso para renderizar a cena, permitindo ao usuário manipular livremente o modelo em wireframe, as texturas, a posição da câmera etc.
Parece revolucionário. Eu esperava que isso viesse, mas encarar de frente ainda assim é algo novo. Tem limitações, mas é um ponto de partida. Até agora, nas engines de jogo, a essência era engenheiros ou desenvolvedores ajustarem a posição de formas geométricas como triângulos para bater exatamente com os pixels. Agora parece que o computador literalmente “pinta” a imagem a cada frame, sem sequer fazer os cálculos com triângulos
E a qualidade ao desenhar mãos era mais de 10 vezes pior também. Agora mãos, texto e imagens estão todos melhores, então acho que vamos voltar a brincar de “Onde está Wally?” para achar defeitos. Algum dia talvez até apareçam vídeos com zoom infinito e marca-d’água de IA escondida no nível de um terço de pixel. Pessoalmente, a área de augmented video me parece mais interessante. Tem gente tentando isso em ferramentas como Runway, com vídeos no estilo stormtrooper vlog, mas o preço é alto demais
Ainda é cedo para dizer que o problema do texto foi completamente resolvido. Melhorou bastante, com certeza, mas o
gpt-image-1também às vezes falha na geração de textoO prompt e o conteúdo gerado no quadro-negro diferem na presença ou ausência de hífen (-)
Foi a primeira apresentação que realmente abalou várias vezes meu senso de realidade. Foi uma experiência de explodir a mente
O avanço da IA generativa está me deixando cada vez mais deprimido. Parece que a criatividade está sendo tirada de nós cada vez mais rápido. Se a tecnologia, no estágio atual, ficasse como ferramenta para ajudar a criação humana, tudo bem, mas agora ela parece mirar substituição total. Claro, dá para dizer “você ainda pode fazer música ou desenhar por conta própria”, mas historicamente obras de arte não surgem apenas para si mesmo e sim em um contexto social de compartilhamento. Então, no fim, o que sobra para nós? Só trabalho simples que ainda não foi automatizado, e quando isso também for automatizado, o que restará ao ser humano? Vamos para um futuro em que só recebemos estímulos personalizados no cérebro para elevar dopamina até ele estragar, algo já parcialmente realizado com coisas como TikTok? Se tudo for automatizado, nem sei como a estrutura econômica poderia se sustentar. Talvez isso possa até ser uma interpretação do paradoxo de Fermi. Um mundo em que ninguém mais entende a tecnologia o bastante para mexer nela, em que até o acesso técnico básico desaparece, e os recursos já foram irreversivelmente esgotados. Nessas condições, fico pensando como ainda seria possível encontrar sentido na vida
Há inúmeros escritores, pintores e artistas famosos que contradizem a ideia de que obras de arte não são feitas puramente para si mesmos, sem compartilhamento com o público. Kafka é um exemplo clássico, e houve muitos casos de obras importantes descobertas só depois da morte do autor e contra sua vontade. Isso não elimina o restante do argumento, mas a arte sempre existiu para si mesma também, e continuará existindo
Sobre a frase “não consigo aceitar o argumento de quem diz estar feliz por viver nesta época”, alegria é um sentimento, não um ato lógico. É uma emoção que vem da esperança e da imaginação. Otimismo não precisa de lógica. E a questão de encontrar sentido na vida não começou com a chegada dos LLMs; é um tema debatido há milhares de anos. Por exemplo, no [Bhagavad Gita], o protagonista pergunta a Deus “se o resultado é sem sentido, por que devo agir?”, mas sem uma resposta definitiva, restando apenas uma reflexão contemplativa. Essa pergunta acompanha a humanidade há muito tempo, desde antes da inteligência artificial
É parecido com o fato de que hoje já não precisamos caminhar ou levantar peso para sobreviver, então, se não nos exercitamos, vamos ficando mais fracos. No futuro, quando a maioria das pessoas já não precisar pensar, criar ou investigar para viver, elas vão ficando mais burras. Só uma minoria vai continuar treinando a mente, mas nem assim conseguirá ser mais inteligente que as máquinas. Do mesmo modo que até o maior atleta não consegue vencer uma máquina
Mesmo no mundo em que já vivemos hoje, há músicas feitas por gente que toca muito melhor do que eu acumuladas no YouTube e no Spotify. Então vejo essa mudança como uma continuação disso
Não concordo com você. Passei a vida compondo centenas de músicas e nunca compartilhei nenhuma com ninguém, e todos os meus amigos músicos fazem o mesmo. O ato de criar é algo separado da existência de uma audiência. Na verdade, é quase o contrário. E a história da produção musical também foi reduzindo gradualmente a barreira de entrada com novas tecnologias; no passado, o acesso era bloqueado por causa de equipamentos caros