1 pontos por GN⁺ 2025-09-05 | 1 comentários | Compartilhar no WhatsApp
  • Voyager é um novo framework de difusão de vídeo que gera sequências consistentes de nuvens de pontos 3D com base em uma imagem de entrada e em uma trajetória de câmera definida pelo usuário
  • Gera RGB e profundidade ao mesmo tempo, permitindo reconstrução 3D eficiente e direta
  • Introduz um pipeline de geração de conjuntos de dados de vídeo em larga escala, garantindo dados de treinamento diversos sem anotações 3D manuais
  • No benchmark WorldScore, apresenta desempenho superior em vários critérios, como consistência 3D e alinhamento de conteúdo, em comparação com diversos modelos existentes
  • Oferece suporte a inferência paralela otimizada em GPU única ou múltiplas GPUs e demonstra, em tempo real, várias possibilidades de aplicação

Introdução ao projeto

  • HunyuanWorld-Voyager gera sequências de vídeo de nuvem de pontos consistentes com o mundo (3D-Consistent) com base em uma imagem de entrada e no caminho de movimento de câmera definido pelo usuário
  • O usuário pode definir livremente a trajetória da câmera para criar vídeos de cenas 3D para exploração do mundo
  • Ao gerar de forma personalizada vídeos RGB e de profundidade (Depth) ao mesmo tempo, possibilita reconstrução 3D rápida e confiável

Arquitetura

  • O Voyager foi projetado com dois componentes principais
    • (1) Arquitetura de difusão de vídeo com consistência de mundo: garante consistência global da cena e gera RGB e profundidade simultaneamente de forma alinhada
    • (2) Exploração de mundo de longo alcance: oferece suporte à expansão de cena com consistência contextual usando point culling, inferência autorregressiva e amostragem suave de vídeo

Motor de dados

  • Para treinar o Voyager, foi projetado separadamente um motor de dados escalável baseado em pipeline de reconstrução de vídeo
    • Para vídeos gerais arbitrários, automatiza a estimativa de pose da câmera e a predição de profundidade em escala métrica, permitindo gerar grandes conjuntos de dados de treinamento sem trabalho manual
    • Fornece um conjunto de dados composto por mais de 100 mil clipes de vídeo, incluindo filmagens reais e dados sintéticos baseados em Unreal Engine

Principais recursos e demos

  • Disponibiliza uma demo de geração de vídeo interativo com controle por trajetória de câmera
  • Permite reconstrução imediata da nuvem de pontos 3D vinculada ao vídeo gerado
  • Demonstra vários cenários de uso, como geração de cena 3D e estimativa de profundidade em vídeo a partir de uma única imagem

Comparação de desempenho

  • Avaliado no benchmark WorldScore
    • O Voyager registrou desempenho de ponta em várias categorias, como controle de câmera, controle de objetos, alinhamento de conteúdo e consistência 3D
    • Em especial, obteve as maiores pontuações em qualidade subjetiva (Subjective Quality) e consistência 3D

Requisitos de sistema

  • Ao gerar vídeo em resolução 540p em uma única GPU de 80GB, são necessários pelo menos 60GB de memória
  • Oferece melhor desempenho em ambiente Linux e CUDA 12.4 (recomendado 80GB ou mais)

Desempenho de inferência paralela

  • Suporta inferência paralela em múltiplas GPUs com base em xDiT
    • Com 8 GPUs H20, gera o resultado em 288 segundos para 49 frames e 50 steps (512x768), o que representa aceleração de 6,69x em relação a uma única GPU

Interface de usuário e demo

  • Disponibiliza uma demo em tempo real baseada em Gradio
    • É possível gerar facilmente vídeos RGB-D com upload de imagem, seleção da direção da câmera e entrada de texto de prompt

Disponibilização do motor de dados

  • O motor escalável de geração de dados em larga escala para treinamento de vídeos RGB-D também é oferecido como open source

Citação e referências

  • Artigo no arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • O HunyuanWorld-Voyager foi projetado e implementado com base em resultados de pesquisa apoiados por vários projetos open source (VGGT, MoGE, Metric3D etc.)

Principais valores e diferenciais do projeto

  • O grande diferencial do Voyager em relação à maioria dos projetos de geração image-to-video existentes é a capacidade de produzir, a partir de uma única imagem, vídeo 3D consistente com o mundo (baseado em nuvem de pontos) em trajetórias variadas
  • Ao gerar tanto informações de RGB quanto de profundidade e fornecer junto um motor de dados automatizado em larga escala, tem grande potencial de uso em vários setores, como geração de conteúdo 3D real, criação de ambientes virtuais, digital twins e aplicações de AIGC

1 comentários

 
GN⁺ 2025-09-05
Comentários do Hacker News
  • Esta licença tem condições bem interessantes

    Pode ser usada em qualquer lugar do mundo, exceto na UE, no Reino Unido e na Coreia do Sul
    Eu esperava que EUA/Canadá estivessem excluídos, então essa combinação me surpreendeu.
    E também,
    “Publique pelo menos uma vez um post técnico de apresentação ou um relato de uso, e exiba ‘Powered by Tencent Hunyuan’ em novos serviços”
    esse tipo de recomendação está incluída na licença.
    Fico curioso sobre o que significa uma recomendação dessas estar dentro da licença.

    • Acho que é por causa da Lei de IA da UE.
      Já testei diretamente um app de verificação de compliance e, mesmo marcando pequena empresa/open source/pesquisa/sem clientes, ainda assim continuavam aparecendo registro, divulgação e vários procedimentos complicados.
      O rascunho era confuso, parecia ter melhorado, mas ainda continua obscuro e burocrático.

    • Lugares como a UE estão tentando regular IA de forma agressiva.
      O objetivo de uma biblioteca open source é evitar responsabilidade legal.
      Mas, nessas regiões, a responsabilidade fica complexa, então parece que decidiram simplesmente proibir o uso.

    • O texto da licença recomenda “blog ou relato de uso, exibição de ‘Powered by Tencent Hunyuan’”,
      então isso parece um novo tipo de divulgação, tipo youtuber pedindo “se inscreve e deixa o like”.

    • Vejo esse tipo de restrição como compliance malicioso na prática.
      Na realidade, a Lei de IA exige só uma explicação resumida sobre dados de treinamento e adequação de copyright, além da forma de gerenciamento de risco.
      Não é algo absurdamente complexo nem ciência de foguetes.

    • Ainda assim, fico curioso se na prática download e uso realmente funcionam dentro da UE.
      Eu não ligo para licença, mas imagino que talvez precise criar conta para baixar alguma coisa.

  • Tecnicamente, está claramente indicado que só aceita uma única foto como entrada, mas fico pensando se, ao usar várias imagens e fazer algo como fotogrametria, não daria para aumentar bastante a expressividade.

    • Eu tive exatamente a mesma dúvida.
      No meu caso, isso teria uma utilidade completamente diferente.
      Em algumas áreas, o barco com LiDAR não conseguiu obter dados de profundidade, e justamente as regiões interessantes estão sem dados.
      Só tenho vídeo aéreo daqui (em trechos onde a superfície da água está transparente).
      Com vídeo em ângulos suficientes, daria para remover ruídos como reflexo na água, reforçar a imagem do fundo e tentar reconstruir com fotogrametria.
      O ponto importante é que, para uma reconstrução precisa, são necessários dados de vários ângulos.
      A visibilidade subaquática muda conforme a luz e o ângulo da câmera, então antes eu precisava repetir voos em diferentes horários,
      mas queria testar se com esse modelo seria possível obter algo semelhante a partir de uma única imagem.

    • Já existem modelos de fotogrametria que fazem esse tipo de trabalho com várias imagens de entrada.
      Alguém certamente poderia tentar expandir a funcionalidade para aceitar algumas fotos em vez de uma única.
      Mas, pelo tom da pergunta, realmente parece um detalhe que foi simplesmente “deixado de fora por engano”.

  • Achei interessante que a tabela comparativa de desempenho destaca a “maior pontuação” em vermelho.

    • É exatamente o mesmo padrão dos gráficos da bolsa chinesa.
      Na China, vermelho significa alta e verde significa queda.

    • Como já foi comentado, no Leste Asiático vermelho tem sentido positivo.
      Mas o que eu achei ainda mais curioso é a terceira cor ser amarelo.
      Normalmente isso difere da ordem do espectro visível.
      (vermelho ~700nm, verde ~550nm, amarelo ~580nm)
      Acho interessante essa ordem de cores diferente do senso comum.

    • O significado das cores é um produto cultural.
      Na China, vermelho tem um sentido diferente do Ocidente.
      Nesse contexto chinês, essa escolha não tem nada de incomum.

    • Mesmo na comunicação ocidental (cinema, moda), essas cores simbólicas aparecem bastante.
      Vermelho costuma surgir com frequência como cor associada à China.

    • É um fenômeno vindo de diferenças culturais, e eu acho isso bem interessante.
      Mas não afeta meu dia a dia, então para mim é só uma observação social curiosa.

  • Em 1995, assisti a uma aula de processamento de imagem com um professor indiano.
    Na época, perguntei como uma imagem de baixa resolução poderia ser feita para parecer melhor, e recebi a resposta de que “informação não pode ser criada”.
    Mas agora, 30 anos depois, vivemos numa era em que é possível fazer um vídeo a partir de uma única foto.

    • Na verdade, dá para extrair muito mais informação de uma imagem do que parece.
      Especialmente em vídeo, sai ainda mais informação.
      Essa técnica se chama ‘super-resolution’.
      Não dá para criar informação do nada, mas é possível preencher naturalmente as partes faltantes usando conhecimento sobre as características do tema.

    • O avanço técnico é grande, mas na verdade o significado de “informação” e “criação” naquela época era diferente.
      Por exemplo, uma criança desenhar com giz de cera um corpo de palito em uma foto de retrato também pode ser chamado de “adicionar informação”,
      mas não é informação sobre o evento real que existiu de fato.
      E um pesquisador não pode inventar dados, nem um jornalista pode inventar citações, porque os contextos de responsabilidade são diferentes.

  • Será que esse modelo realmente consegue fazer uma rotação completa de 360 graus?
    Pelos vídeos publicados, parece que ele só se move um pouco ou, no máximo, faz um pan leve.

    • Em teoria, é possível.
      A cada frame, o modelo cria uma imagem de profundidade, e cada pixel vira um ponto 3D.
      Assumindo que toda a cena 3D seja estática, dá para reunir todos os frames em uma nuvem de pontos 3D acumulada.
      Depois disso, você pode girar o ponto de vista livremente com um renderizador 3D clássico.
      Mas, se na etapa real de geração de vídeo faltar consistência entre os frames (por exemplo, mudança de cor), então a nuvem de pontos também vira apenas “dados consistentemente errados”.
      No fim, ao girar, a combinação de cores fica desalinhada e parece um blend borrado.
      E também fica difícil inserir corretamente objetos virtuais na cena gerada.
      Isso porque não há informação de iluminação, e a mistura de cores também não combina com o ambiente.
      A ideia é legal, mas ainda há muitos problemas adicionais para resolver.
  • Estou ansioso para experimentar esse tipo de recurso em VR de verdade o quanto antes.

    • Recomendo experimentar o modo “Immersive Photo” do visionOS 26.
      As fotos na biblioteca do iCloud são convertidas automaticamente por um modelo local (provavelmente no estilo de uma cena 3D com Gaussian Splat).
      Dá para fazer pan e girar, e isso faz o Vision Pro valer a pena.
      Até fotos antigas tiradas com uma Nikon D70 fazem paisagens e pessoas parecerem reais.

    • Espero que você não esteja com pressa demais.
      Ainda estamos longe de algo realmente em alta resolução, 120fps, estéreo estável e latência ultrabaixa.

    • Acho que, se isso for aplicado no estado atual, pode causar muito enjoo.
      O campo de visão (fov) desses vídeos é caótico demais.

  • Gostaria de saber qual é o melhor modelo ou combinação atual para conversão text-to-3D-asset (texto → ativo 3D).
    Melhor ainda se for baseado em open source.

    • E complementando: também queria saber se existe text-to-sprite-sheet (texto → sprite sheet),
      ou até texto + imagem única → sprite sheet.
  • Na verdade isso não é open source, e sim no formato “weights-available” (pesos disponíveis).
    Não há dados de treinamento, e se open source significa “a forma mais adequada para modificação”, então os dados também deveriam estar incluídos.
    Parte do texto original da licença:

    “Se o MAU do mês anterior for de 1 milhão ou mais, é necessária licença prévia,
    não pode ser usado para melhorar outros modelos de IA”
    A Acceptable Use Policy também impõe restrições bem específicas.
    Ver licença completa

    • Imagino que a restrição para UE/Reino Unido/Coreia do Sul seja porque essas regiões podem contestar o treinamento não autorizado com dados ou exigir compensação financeira.

    • Concordo com a afirmação de que “não é open source”,
      mas “a forma mais adequada para modificação” não é necessariamente o dado (dataset de treinamento), e sim os pesos (weights).
      Os dados são um meio de modificar os pesos.

    • Quero apontar que fine-tuning é muito mais barato.

    • Tirando a AI2, acho que praticamente todos os modelos de IA não são open source de verdade (com logs de treinamento e dados públicos).
      Hoje em dia, open source é usado praticamente como sinônimo de “weights-available”.

    • “7. Não gerar nem distribuir desinformação claramente falsa com o objetivo de prejudicar outros ou manipular eleições”
      “8. Não criar atividades online falsas, como avaliações falsas”
      → não é meio hipócrita proibirem isso nos outros enquanto fazem o mesmo?
      “15. Não usar de forma contrária à ética/moral social de outros países ou regiões”
      entre outras cláusulas, na prática tornam o uso difícil em qualquer lugar.
      A política é exagerada demais.

  • O que me interessa é inserir fotos do Panoramax (alternativa open source ao Street View) e reconstruí-las em uma cena navegável em 3D.

  • Posso pedir para a câmera girar 1080 graus??
    Os vídeos são <i>curtos demais</i> e nem giram 45 graus direito.
    Até o Genie3 mal chega a 90 graus.
    Na prática, é preciso prestar atenção ao que o modelo não consegue fazer, e neste caso é “não consegue girar direito”.
    Se não passa num teste simples de deixar parado no lugar e girar, eu já não quero mais chamar isso de ‘world model’.
    Argh, que frustração.