3 pontos por GN⁺ 2025-11-24 | 1 comentários | Compartilhar no WhatsApp
  • O WorldGen da Meta é um sistema de IA generativa de ponta a ponta que cria automaticamente mundos 3D exploráveis a partir de um único prompt de texto
  • Ele combina raciocínio procedural, geração 3D baseada em difusão e decomposição de cena com reconhecimento de objetos para compor ambientes geometricamente consistentes e visualmente ricos
  • O processo de geração é composto por quatro etapas: planejamento (Planning), reconstrução (Reconstruction), decomposição (Decomposition) e refinamento (Refinement)
  • Os resultados são compatíveis com motores de jogo padrão como Unity e Unreal, podendo ser usados sem processo adicional de conversão
  • Tem potencial para democratizar e tornar mais eficiente a criação de conteúdo 3D complexo e caro

Visão geral do WorldGen

  • O WorldGen gera em poucos minutos mundos 3D interativos apenas com entradas de texto como “cartoon medieval village” ou “sci-fi base station on Mars”
    • Os mundos gerados mantêm consistência de estilo e tema e são conectados em uma estrutura na qual os personagens podem se mover livremente
  • Com base nos avanços da IA generativa, ele permite construir ambientes 3D completos a partir de um único prompt de texto ou imagem

Estrutura técnica e etapas de geração

  • O WorldGen começa com uma etapa de planejamento que inclui geração procedural de blockout, extração de Navmesh e geração de imagens de referência
  • Em seguida, passa pela etapa de reconstrução, que realiza conversão de imagem para 3D, geração de cena baseada em Navmesh e geração de texturas básicas
  • Usa o AutoPartGen para fazer decomposição de cena e curadoria de dados, separando elementos detalhados
  • Por fim, executa a etapa de refinamento por meio de aprimoramento de imagem, refinamento de malha e modelos de texturização

Diferenças em relação às abordagens existentes

  • Os sistemas anteriores geram com foco em um único ponto de vista (viewpoint), fazendo a qualidade cair rapidamente fora da área central
  • O WorldGen cria uma cena totalmente texturizada em escala de 50×50 metros, mantendo consistência de estilo e geometria
  • Pesquisas seguem em andamento com foco em mundos de escala ainda maior

Compatibilidade e possibilidades de uso

  • No momento, ele ainda está em fase de pesquisa e não foi disponibilizado para desenvolvedores, mas o conteúdo gerado pode ser usado diretamente em Unity, Unreal e outros
  • Não é necessária nenhuma conversão adicional do pipeline de renderização

Limitações e direções futuras

  • O modelo atual ainda tem espaço para melhorias em tamanho do espaço e latência de geração
  • As próximas versões terão como meta gerar espaços maiores e aumentar a velocidade

Importância para a indústria

  • Ele reduz a complexidade e o custo da criação de conteúdo 3D e aponta a possibilidade de que mesmo não especialistas construam mundos virtuais
  • Isso está alinhado à visão apresentada pela Meta no evento Connect de um futuro em que qualquer pessoa poderá criar mundos virtuais sem escrever uma linha de código

Agradecimentos

  • O projeto foi realizado pela equipe 3D GenAI da Reality Labs
  • Principais contribuintes: Dilin Wang, Hyunyoung Jung, Tom Monnier, Kihyuk Sohn e outros (o símbolo † indica os líderes do projeto)

1 comentários

 
GN⁺ 2025-11-24
Comentários do Hacker News
  • É um demo interessante, mas não dá para entrar nos prédios, o tamanho dos edifícios e a disposição da vila são quase sempre os mesmos, e há muita inconsistência visual
    No fim, parece só colocar caixas parecidas em uma grade e andar entre elas
    Eu sei que o progresso acontece de forma gradual, mas, comparado a outros demos de geração de mundos, isso parece um passo pequeno demais

    • As vilas feitas por IA parecem como se tivessem sido submetidas a regulações urbanísticas rígidas
      Todos os prédios estão posicionados em intervalos regulares sobre uma grade, e parece até haver limite de altura
      Jogos de mundo aberto realistas (GTA, Cyberpunk etc.) incluem de propósito "confusão projetada", como becos sem saída ou portas trancadas
      Se todo caminho leva a algum lugar interessante, a graça da exploração acaba desaparecendo
    • Este demo pode ser mais útil no pipeline de produção de conteúdo do que outros exemplos como o World Labs
      Se usa ativos explícitos, pode ser mais adequado para desenvolvimento de jogos
      A Meta já publicou muitos artigos centrais nessa área e também tem o Hyperscape, então dá para ver isso como uma tentativa experimental em outra direção
    • Não estou vendo um link para um demo real funcionando
    • A maioria dos jogos também não deixa entrar nos prédios. Até em Cyberpunk, só uma minoria das portas abre
      Fico curioso para saber quando usuários comuns vão poder experimentar esse tipo de engine de worldgen por conta própria
      Também fico me perguntando por que Google, Meta e Tencent continuam só demonstrando e nunca liberam isso de verdade
  • Isso parece um pipeline de engenharia que combina técnicas de GenAI já existentes
    O resultado também não está em nível SOTA e, em vez de progresso, parece mais uma abordagem sem saída
    A inovação de verdade seria gerar diretamente malhas com textura por meio de um modelo treinado end-to-end, e o fato de não terem conseguido pode significar que a tecnologia central ainda não existe
    Ainda assim, talvez dê para usar isso para fazer bootstrap de datasets para treinamento de modelos no futuro

    • Fico curioso para saber qual é a tecnologia SOTA atual nessa área
    • Os desenvolvedores provavelmente fizeram o melhor possível para atender às exigências de cima, mas isso parece um exemplo das limitações de inovação nas big techs
  • Isso está mais para 3DAssetGen do que para um “modelo de mundo”
    Não está gerando um mundo de fato, só combinando ativos
    Um mundo feito à mão é muito melhor, e isso é menos atraente até do que um jogo feito no RPG Maker

    • Na prática, parece gerar apenas uma pequena área quadrada. Esse tipo de mundo em grade vai ser desconfortável para o jogador
      Ainda assim, tem valor como primeira tentativa, e espero que a IA possa reduzir a barreira para criar mundos de metaverso
      Isso fica ainda mais evidente quando se pensa no tempo e no custo absurdos para fazer até mesmo uma pequena ilha em algo como GTA
    • Em nenhum lugar da página aparece a expressão “modelo de mundo”
  • Seria melhor simplesmente comprar modelos de prédios em uma asset store de 5 dólares
    Fico pensando se realmente faz sentido gastar dezenas de bilhões de dólares em datacenters e destruir o meio ambiente para fazer esse tipo de coisa

    • Acho melhor usar esse dinheiro para apoiar artistas low-poly como o Quaternius
      Também fico curioso se artistas 3D hoje em dia ainda têm disposição para distribuir ativos gratuitamente
  • A atmosfera do primeiro vídeo lembra Warcraft 3 ou DotA
    Houve uma época em que um único mapa simples mudou completamente os jogos online e os eSports
    Hoje dá para criar mundos sob demanda com qualidade muito maior, mas aquele mapa simples de antes parece até mais grandioso

  • No fim, tudo o que queremos é um SimCity melhor, então não entendo por que seriam necessários tantos modelos de geração de mundos e datacenters
    É irônico gastar enormes quantidades de energia e água para criar vilas falsas
    Eu mesmo evito comprar console de propósito porque tenho medo de ficar viciado em jogos como Red Dead
    Fico em dúvida sobre quem realmente se beneficia com esse tipo de tecnologia

  • Cliquei no link e deu erro 404, então fui pesquisar e vi que já existia em maio um projeto Worldgen com o mesmo nome
    Aquele parece ter implementado cenas 3D mais realistas muito melhor

    • Mas aquilo na verdade está mais para um truque de fazer uma imagem 2D parecer 3D
      Basta mover um pouco a câmera e tudo se desfaz
  • O artigo em si era bem bom
    Tem detalhes interessantes sobre o processamento de malhas individuais
    Link do artigo

  • Como eles usaram a palavra “interativo” várias vezes, eu esperava interações reais, como abrir portas ou pegar objetos,
    mas no fim só quer dizer que dá para olhar ao redor em primeira pessoa
    Com essa definição, qualquer modelo 3D pode ser chamado de interativo

  • Geração panorâmica 2D baseada em difusão → conversão para nuvem de pontos → lifting 3D → inpainting 2D → otimização com Gaussian Splatting 3D
    Foi basicamente assim que costuraram imagens para transformá-las em 3D
    Conceitualmente, é uma abordagem difícil de chamar de modelo de mundo, então essa ambiguidade no termo é meio frustrante