1 pontos por GN⁺ 2025-09-05 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Voyager é um novo framework de difusão de vídeo que gera sequências consistentes de nuvens de pontos 3D com base em uma imagem de entrada e em uma trajetória de câmera definida pelo usuário
  • Gera RGB e profundidade ao mesmo tempo, permitindo reconstrução 3D eficiente e direta
  • Introduz um pipeline de geração de conjuntos de dados de vídeo em larga escala, garantindo dados de treinamento diversos sem anotações 3D manuais
  • No benchmark WorldScore, apresenta desempenho superior em vários critérios, como consistência 3D e alinhamento de conteúdo, em comparação com diversos modelos existentes
  • Oferece suporte a inferência paralela otimizada em GPU única ou múltiplas GPUs e demonstra, em tempo real, várias possibilidades de aplicação

Introdução ao projeto

  • HunyuanWorld-Voyager gera sequências de vídeo de nuvem de pontos consistentes com o mundo (3D-Consistent) com base em uma imagem de entrada e no caminho de movimento de câmera definido pelo usuário
  • O usuário pode definir livremente a trajetória da câmera para criar vídeos de cenas 3D para exploração do mundo
  • Ao gerar de forma personalizada vídeos RGB e de profundidade (Depth) ao mesmo tempo, possibilita reconstrução 3D rápida e confiável

Arquitetura

  • O Voyager foi projetado com dois componentes principais
    • (1) Arquitetura de difusão de vídeo com consistência de mundo: garante consistência global da cena e gera RGB e profundidade simultaneamente de forma alinhada
    • (2) Exploração de mundo de longo alcance: oferece suporte à expansão de cena com consistência contextual usando point culling, inferência autorregressiva e amostragem suave de vídeo

Motor de dados

  • Para treinar o Voyager, foi projetado separadamente um motor de dados escalável baseado em pipeline de reconstrução de vídeo
    • Para vídeos gerais arbitrários, automatiza a estimativa de pose da câmera e a predição de profundidade em escala métrica, permitindo gerar grandes conjuntos de dados de treinamento sem trabalho manual
    • Fornece um conjunto de dados composto por mais de 100 mil clipes de vídeo, incluindo filmagens reais e dados sintéticos baseados em Unreal Engine

Principais recursos e demos

  • Disponibiliza uma demo de geração de vídeo interativo com controle por trajetória de câmera
  • Permite reconstrução imediata da nuvem de pontos 3D vinculada ao vídeo gerado
  • Demonstra vários cenários de uso, como geração de cena 3D e estimativa de profundidade em vídeo a partir de uma única imagem

Comparação de desempenho

  • Avaliado no benchmark WorldScore
    • O Voyager registrou desempenho de ponta em várias categorias, como controle de câmera, controle de objetos, alinhamento de conteúdo e consistência 3D
    • Em especial, obteve as maiores pontuações em qualidade subjetiva (Subjective Quality) e consistência 3D

Requisitos de sistema

  • Ao gerar vídeo em resolução 540p em uma única GPU de 80GB, são necessários pelo menos 60GB de memória
  • Oferece melhor desempenho em ambiente Linux e CUDA 12.4 (recomendado 80GB ou mais)

Desempenho de inferência paralela

  • Suporta inferência paralela em múltiplas GPUs com base em xDiT
    • Com 8 GPUs H20, gera o resultado em 288 segundos para 49 frames e 50 steps (512x768), o que representa aceleração de 6,69x em relação a uma única GPU

Interface de usuário e demo

  • Disponibiliza uma demo em tempo real baseada em Gradio
    • É possível gerar facilmente vídeos RGB-D com upload de imagem, seleção da direção da câmera e entrada de texto de prompt

Disponibilização do motor de dados

  • O motor escalável de geração de dados em larga escala para treinamento de vídeos RGB-D também é oferecido como open source

Citação e referências

  • Artigo no arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • O HunyuanWorld-Voyager foi projetado e implementado com base em resultados de pesquisa apoiados por vários projetos open source (VGGT, MoGE, Metric3D etc.)

Principais valores e diferenciais do projeto

  • O grande diferencial do Voyager em relação à maioria dos projetos de geração image-to-video existentes é a capacidade de produzir, a partir de uma única imagem, vídeo 3D consistente com o mundo (baseado em nuvem de pontos) em trajetórias variadas
  • Ao gerar tanto informações de RGB quanto de profundidade e fornecer junto um motor de dados automatizado em larga escala, tem grande potencial de uso em vários setores, como geração de conteúdo 3D real, criação de ambientes virtuais, digital twins e aplicações de AIGC

Ainda não há comentários.

Ainda não há comentários.