Voyager – modelo de geração de vídeo interativo com suporte a reconstrução 3D em tempo real

(github.com/Tencent-Hunyuan)

1 pontos por GN⁺ 2025-09-05 | Ainda não há comentários. | Compartilhar no WhatsApp

Voyager é um novo framework de difusão de vídeo que gera sequências consistentes de nuvens de pontos 3D com base em uma imagem de entrada e em uma trajetória de câmera definida pelo usuário
Gera RGB e profundidade ao mesmo tempo, permitindo reconstrução 3D eficiente e direta
Introduz um pipeline de geração de conjuntos de dados de vídeo em larga escala, garantindo dados de treinamento diversos sem anotações 3D manuais
No benchmark WorldScore, apresenta desempenho superior em vários critérios, como consistência 3D e alinhamento de conteúdo, em comparação com diversos modelos existentes
Oferece suporte a inferência paralela otimizada em GPU única ou múltiplas GPUs e demonstra, em tempo real, várias possibilidades de aplicação

Introdução ao projeto

HunyuanWorld-Voyager gera sequências de vídeo de nuvem de pontos consistentes com o mundo (3D-Consistent) com base em uma imagem de entrada e no caminho de movimento de câmera definido pelo usuário
O usuário pode definir livremente a trajetória da câmera para criar vídeos de cenas 3D para exploração do mundo
Ao gerar de forma personalizada vídeos RGB e de profundidade (Depth) ao mesmo tempo, possibilita reconstrução 3D rápida e confiável

O Voyager foi projetado com dois componentes principais
- (1) Arquitetura de difusão de vídeo com consistência de mundo: garante consistência global da cena e gera RGB e profundidade simultaneamente de forma alinhada
- (2) Exploração de mundo de longo alcance: oferece suporte à expansão de cena com consistência contextual usando point culling, inferência autorregressiva e amostragem suave de vídeo

Para treinar o Voyager, foi projetado separadamente um motor de dados escalável baseado em pipeline de reconstrução de vídeo
- Para vídeos gerais arbitrários, automatiza a estimativa de pose da câmera e a predição de profundidade em escala métrica, permitindo gerar grandes conjuntos de dados de treinamento sem trabalho manual
- Fornece um conjunto de dados composto por mais de 100 mil clipes de vídeo, incluindo filmagens reais e dados sintéticos baseados em Unreal Engine

Disponibiliza uma demo de geração de vídeo interativo com controle por trajetória de câmera
Permite reconstrução imediata da nuvem de pontos 3D vinculada ao vídeo gerado
Demonstra vários cenários de uso, como geração de cena 3D e estimativa de profundidade em vídeo a partir de uma única imagem

Avaliado no benchmark WorldScore
- O Voyager registrou desempenho de ponta em várias categorias, como controle de câmera, controle de objetos, alinhamento de conteúdo e consistência 3D
- Em especial, obteve as maiores pontuações em qualidade subjetiva (Subjective Quality) e consistência 3D

Ao gerar vídeo em resolução 540p em uma única GPU de 80GB, são necessários pelo menos 60GB de memória
Oferece melhor desempenho em ambiente Linux e CUDA 12.4 (recomendado 80GB ou mais)

Suporta inferência paralela em múltiplas GPUs com base em xDiT
- Com 8 GPUs H20, gera o resultado em 288 segundos para 49 frames e 50 steps (512x768), o que representa aceleração de 6,69x em relação a uma única GPU

Disponibiliza uma demo em tempo real baseada em Gradio
- É possível gerar facilmente vídeos RGB-D com upload de imagem, seleção da direção da câmera e entrada de texto de prompt

O motor escalável de geração de dados em larga escala para treinamento de vídeos RGB-D também é oferecido como open source

Artigo no arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
O HunyuanWorld-Voyager foi projetado e implementado com base em resultados de pesquisa apoiados por vários projetos open source (VGGT, MoGE, Metric3D etc.)

O grande diferencial do Voyager em relação à maioria dos projetos de geração image-to-video existentes é a capacidade de produzir, a partir de uma única imagem, vídeo 3D consistente com o mundo (baseado em nuvem de pontos) em trajetórias variadas
Ao gerar tanto informações de RGB quanto de profundidade e fornecer junto um motor de dados automatizado em larga escala, tem grande potencial de uso em vários setores, como geração de conteúdo 3D real, criação de ambientes virtuais, digital twins e aplicações de AIGC