- O WorldGen da Meta é um sistema de IA generativa de ponta a ponta que cria automaticamente mundos 3D exploráveis a partir de um único prompt de texto
- Ele combina raciocínio procedural, geração 3D baseada em difusão e decomposição de cena com reconhecimento de objetos para compor ambientes geometricamente consistentes e visualmente ricos
- O processo de geração é composto por quatro etapas: planejamento (Planning), reconstrução (Reconstruction), decomposição (Decomposition) e refinamento (Refinement)
- Os resultados são compatíveis com motores de jogo padrão como Unity e Unreal, podendo ser usados sem processo adicional de conversão
- Tem potencial para democratizar e tornar mais eficiente a criação de conteúdo 3D complexo e caro
Visão geral do WorldGen
- O WorldGen gera em poucos minutos mundos 3D interativos apenas com entradas de texto como “cartoon medieval village” ou “sci-fi base station on Mars”
- Os mundos gerados mantêm consistência de estilo e tema e são conectados em uma estrutura na qual os personagens podem se mover livremente
- Com base nos avanços da IA generativa, ele permite construir ambientes 3D completos a partir de um único prompt de texto ou imagem
Estrutura técnica e etapas de geração
- O WorldGen começa com uma etapa de planejamento que inclui geração procedural de blockout, extração de Navmesh e geração de imagens de referência
- Em seguida, passa pela etapa de reconstrução, que realiza conversão de imagem para 3D, geração de cena baseada em Navmesh e geração de texturas básicas
- Usa o AutoPartGen para fazer decomposição de cena e curadoria de dados, separando elementos detalhados
- Por fim, executa a etapa de refinamento por meio de aprimoramento de imagem, refinamento de malha e modelos de texturização
Diferenças em relação às abordagens existentes
- Os sistemas anteriores geram com foco em um único ponto de vista (viewpoint), fazendo a qualidade cair rapidamente fora da área central
- O WorldGen cria uma cena totalmente texturizada em escala de 50×50 metros, mantendo consistência de estilo e geometria
- Pesquisas seguem em andamento com foco em mundos de escala ainda maior
Compatibilidade e possibilidades de uso
- No momento, ele ainda está em fase de pesquisa e não foi disponibilizado para desenvolvedores, mas o conteúdo gerado pode ser usado diretamente em Unity, Unreal e outros
- Não é necessária nenhuma conversão adicional do pipeline de renderização
Limitações e direções futuras
- O modelo atual ainda tem espaço para melhorias em tamanho do espaço e latência de geração
- As próximas versões terão como meta gerar espaços maiores e aumentar a velocidade
Importância para a indústria
- Ele reduz a complexidade e o custo da criação de conteúdo 3D e aponta a possibilidade de que mesmo não especialistas construam mundos virtuais
- Isso está alinhado à visão apresentada pela Meta no evento Connect de um futuro em que qualquer pessoa poderá criar mundos virtuais sem escrever uma linha de código
Agradecimentos
- O projeto foi realizado pela equipe 3D GenAI da Reality Labs
- Principais contribuintes: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn e outros (o símbolo † indica os líderes do projeto)
1 comentários
Comentários do Hacker News
É um demo interessante, mas não dá para entrar nos prédios, o tamanho dos edifícios e a disposição da vila são quase sempre os mesmos, e há muita inconsistência visual
No fim, parece só colocar caixas parecidas em uma grade e andar entre elas
Eu sei que o progresso acontece de forma gradual, mas, comparado a outros demos de geração de mundos, isso parece um passo pequeno demais
Todos os prédios estão posicionados em intervalos regulares sobre uma grade, e parece até haver limite de altura
Jogos de mundo aberto realistas (GTA, Cyberpunk etc.) incluem de propósito "confusão projetada", como becos sem saída ou portas trancadas
Se todo caminho leva a algum lugar interessante, a graça da exploração acaba desaparecendo
Se usa ativos explícitos, pode ser mais adequado para desenvolvimento de jogos
A Meta já publicou muitos artigos centrais nessa área e também tem o Hyperscape, então dá para ver isso como uma tentativa experimental em outra direção
Fico curioso para saber quando usuários comuns vão poder experimentar esse tipo de engine de worldgen por conta própria
Também fico me perguntando por que Google, Meta e Tencent continuam só demonstrando e nunca liberam isso de verdade
Isso parece um pipeline de engenharia que combina técnicas de GenAI já existentes
O resultado também não está em nível SOTA e, em vez de progresso, parece mais uma abordagem sem saída
A inovação de verdade seria gerar diretamente malhas com textura por meio de um modelo treinado end-to-end, e o fato de não terem conseguido pode significar que a tecnologia central ainda não existe
Ainda assim, talvez dê para usar isso para fazer bootstrap de datasets para treinamento de modelos no futuro
Isso está mais para 3DAssetGen do que para um “modelo de mundo”
Não está gerando um mundo de fato, só combinando ativos
Um mundo feito à mão é muito melhor, e isso é menos atraente até do que um jogo feito no RPG Maker
Ainda assim, tem valor como primeira tentativa, e espero que a IA possa reduzir a barreira para criar mundos de metaverso
Isso fica ainda mais evidente quando se pensa no tempo e no custo absurdos para fazer até mesmo uma pequena ilha em algo como GTA
Seria melhor simplesmente comprar modelos de prédios em uma asset store de 5 dólares
Fico pensando se realmente faz sentido gastar dezenas de bilhões de dólares em datacenters e destruir o meio ambiente para fazer esse tipo de coisa
Também fico curioso se artistas 3D hoje em dia ainda têm disposição para distribuir ativos gratuitamente
A atmosfera do primeiro vídeo lembra Warcraft 3 ou DotA
Houve uma época em que um único mapa simples mudou completamente os jogos online e os eSports
Hoje dá para criar mundos sob demanda com qualidade muito maior, mas aquele mapa simples de antes parece até mais grandioso
No fim, tudo o que queremos é um SimCity melhor, então não entendo por que seriam necessários tantos modelos de geração de mundos e datacenters
É irônico gastar enormes quantidades de energia e água para criar vilas falsas
Eu mesmo evito comprar console de propósito porque tenho medo de ficar viciado em jogos como Red Dead
Fico em dúvida sobre quem realmente se beneficia com esse tipo de tecnologia
Cliquei no link e deu erro 404, então fui pesquisar e vi que já existia em maio um projeto Worldgen com o mesmo nome
Aquele parece ter implementado cenas 3D mais realistas muito melhor
Basta mover um pouco a câmera e tudo se desfaz
O artigo em si era bem bom
Tem detalhes interessantes sobre o processamento de malhas individuais
Link do artigo
Como eles usaram a palavra “interativo” várias vezes, eu esperava interações reais, como abrir portas ou pegar objetos,
mas no fim só quer dizer que dá para olhar ao redor em primeira pessoa
Com essa definição, qualquer modelo 3D pode ser chamado de interativo
Geração panorâmica 2D baseada em difusão → conversão para nuvem de pontos → lifting 3D → inpainting 2D → otimização com Gaussian Splatting 3D
Foi basicamente assim que costuraram imagens para transformá-las em 3D
Conceitualmente, é uma abordagem difícil de chamar de modelo de mundo, então essa ambiguidade no termo é meio frustrante