- Voyager é um novo framework de difusão de vídeo que gera sequências consistentes de nuvens de pontos 3D com base em uma imagem de entrada e em uma trajetória de câmera definida pelo usuário
- Gera RGB e profundidade ao mesmo tempo, permitindo reconstrução 3D eficiente e direta
- Introduz um pipeline de geração de conjuntos de dados de vídeo em larga escala, garantindo dados de treinamento diversos sem anotações 3D manuais
- No benchmark WorldScore, apresenta desempenho superior em vários critérios, como consistência 3D e alinhamento de conteúdo, em comparação com diversos modelos existentes
- Oferece suporte a inferência paralela otimizada em GPU única ou múltiplas GPUs e demonstra, em tempo real, várias possibilidades de aplicação
Introdução ao projeto
- HunyuanWorld-Voyager gera sequências de vídeo de nuvem de pontos consistentes com o mundo (3D-Consistent) com base em uma imagem de entrada e no caminho de movimento de câmera definido pelo usuário
- O usuário pode definir livremente a trajetória da câmera para criar vídeos de cenas 3D para exploração do mundo
- Ao gerar de forma personalizada vídeos RGB e de profundidade (Depth) ao mesmo tempo, possibilita reconstrução 3D rápida e confiável
Arquitetura
- O Voyager foi projetado com dois componentes principais
- (1) Arquitetura de difusão de vídeo com consistência de mundo: garante consistência global da cena e gera RGB e profundidade simultaneamente de forma alinhada
- (2) Exploração de mundo de longo alcance: oferece suporte à expansão de cena com consistência contextual usando point culling, inferência autorregressiva e amostragem suave de vídeo
Motor de dados
- Para treinar o Voyager, foi projetado separadamente um motor de dados escalável baseado em pipeline de reconstrução de vídeo
- Para vídeos gerais arbitrários, automatiza a estimativa de pose da câmera e a predição de profundidade em escala métrica, permitindo gerar grandes conjuntos de dados de treinamento sem trabalho manual
- Fornece um conjunto de dados composto por mais de 100 mil clipes de vídeo, incluindo filmagens reais e dados sintéticos baseados em Unreal Engine
Principais recursos e demos
- Disponibiliza uma demo de geração de vídeo interativo com controle por trajetória de câmera
- Permite reconstrução imediata da nuvem de pontos 3D vinculada ao vídeo gerado
- Demonstra vários cenários de uso, como geração de cena 3D e estimativa de profundidade em vídeo a partir de uma única imagem
Comparação de desempenho
- Avaliado no benchmark WorldScore
- O Voyager registrou desempenho de ponta em várias categorias, como controle de câmera, controle de objetos, alinhamento de conteúdo e consistência 3D
- Em especial, obteve as maiores pontuações em qualidade subjetiva (Subjective Quality) e consistência 3D
Requisitos de sistema
- Ao gerar vídeo em resolução 540p em uma única GPU de 80GB, são necessários pelo menos 60GB de memória
- Oferece melhor desempenho em ambiente Linux e CUDA 12.4 (recomendado 80GB ou mais)
Desempenho de inferência paralela
- Suporta inferência paralela em múltiplas GPUs com base em xDiT
- Com 8 GPUs H20, gera o resultado em 288 segundos para 49 frames e 50 steps (512x768), o que representa aceleração de 6,69x em relação a uma única GPU
Interface de usuário e demo
- Disponibiliza uma demo em tempo real baseada em Gradio
- É possível gerar facilmente vídeos RGB-D com upload de imagem, seleção da direção da câmera e entrada de texto de prompt
Disponibilização do motor de dados
- O motor escalável de geração de dados em larga escala para treinamento de vídeos RGB-D também é oferecido como open source
Citação e referências
- Artigo no arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- O HunyuanWorld-Voyager foi projetado e implementado com base em resultados de pesquisa apoiados por vários projetos open source (VGGT, MoGE, Metric3D etc.)
Principais valores e diferenciais do projeto
- O grande diferencial do Voyager em relação à maioria dos projetos de geração image-to-video existentes é a capacidade de produzir, a partir de uma única imagem, vídeo 3D consistente com o mundo (baseado em nuvem de pontos) em trajetórias variadas
- Ao gerar tanto informações de RGB quanto de profundidade e fornecer junto um motor de dados automatizado em larga escala, tem grande potencial de uso em vários setores, como geração de conteúdo 3D real, criação de ambientes virtuais, digital twins e aplicações de AIGC
Ainda não há comentários.