2 pontos por GN⁺ 2024-03-19 | 1 comentários | Compartilhar no WhatsApp

Stable Video 3D: síntese de novas visualizações de alta qualidade e geração 3D a partir de uma única imagem

  • Lançamento do Stable Video 3D (SV3D), um modelo generativo baseado no Stable Video Diffusion. A qualidade do vídeo e a consistência entre visualizações foram muito aprimoradas
  • Inclui duas variantes: SV3D_u e SV3D_p
    • O SV3D_u gera um vídeo orbital com base na entrada de uma única imagem, sem condicionamento de câmera
    • O SV3D_p amplia a funcionalidade para aceitar uma única imagem e também visualizações orbitais, gerando vídeo 3D ao longo de um caminho de câmera especificado
  • O Stable Video 3D pode ser usado para fins comerciais por meio da assinatura da Stability AI e, para uso não comercial, é possível baixar os pesos do modelo no Hugging Face e consultar o artigo de pesquisa

Vantagens do Video Diffusion

  • Ao aplicar o modelo de difusão image-to-video Stable Video Diffusion com a adição de condicionamento de caminho de câmera, o Stable Video 3D consegue gerar vídeos multiview de objetos
  • O uso de um modelo de Video Diffusion oferece vantagens importantes em termos de generalização dos resultados gerados e consistência entre visualizações, em comparação com o modelo de difusão de imagem usado no Stable Zero123
  • Além disso, aproveitando os recursos robustos do Stable Video 3D, é proposta uma otimização 3D aprimorada para gerar órbitas arbitrárias ao redor de objetos

Geração de novas visualizações

  • O SV3D introduz avanços importantes especialmente em síntese de novas visualizações (NVS)
  • Enquanto abordagens anteriores frequentemente enfrentavam limitações de perspectiva e inconsistências nos resultados, o SV3D fornece visualizações consistentes em qualquer ângulo fornecido
  • Essa capacidade não apenas melhora o controle de pose, mas também garante aparência consistente do objeto em múltiplas visualizações, aprimorando ainda mais um aspecto essencial da geração 3D realista e precisa

Geração 3D

  • O SV3D aproveita a consistência multiview para otimizar campos de radiância neural 3D (NeRF) e representações em malha, melhorando a qualidade de malhas 3D geradas diretamente a partir de novas visualizações
  • Para isso, foi projetada uma perda de amostragem por destilação com pontuação de máscara para melhorar ainda mais a qualidade 3D de áreas invisíveis nas visualizações previstas
  • Além disso, o SV3D usa um modelo de iluminação separado, otimizado junto com a forma 3D e a textura, para reduzir o problema de iluminação embutida

1 comentários

 
GN⁺ 2024-03-19
Comentários do Hacker News
  • O primeiro usuário tentou o modelo Stable Video 3D (SV3D) usando uma placa de vídeo 4090 (24 GB de VRAM), mas teve uma falha por falta de memória após mais de 1 minuto de execução. Ao ajustar o script para reduzir o número de frames gerados simultaneamente, conseguiu gerar com sucesso; o uso de VRAM chegou a no máximo 19,5 GB, levando 1 minuto e 25 segundos a 225 watts.

    Stable Video 3D (SV3D): modelo generativo baseado em Stable Video Diffusion que recebe uma imagem estática como entrada e gera um vídeo orbital do objeto correspondente.

  • O segundo usuário pergunta se o SV3D consegue produzir um modelo 3D real ou se apenas gera imagens de como o objeto pareceria de outros ângulos.
  • O terceiro usuário acha que, se a animação apresentada for representativa, a malha gerada talvez seja boa o suficiente para uso em impressoras 3D, e espera por experimentos.
  • O quarto usuário pergunta sobre os requisitos de hardware ou memória para rodar o SV3D.
  • O quinto usuário quer saber se a entrada exige mais de uma imagem, se existe uma URL de demonstração para testar e pergunta se "entrada de imagem única" significa várias imagens.
  • O sexto usuário comenta que todos os exemplos parecem brinquedos infantis de plástico e quer saber como isso lidaria com outros objetos (pessoas, tecidos, prédios, plantas, montanhas, peças mecânicas etc.).
  • O sétimo usuário avalia a animação de demonstração como muito inteligente e satisfatória.
  • O oitavo usuário espera que esse tipo de tecnologia possa ser usado em design arquitetônico.
  • O nono e o décimo comentários estão marcados respectivamente como "[dead]" e "[flagged]", então não é possível saber o conteúdo.