Stability AI apresenta o Stable Video 3D

(stability.ai)

2 pontos por GN⁺ 2024-03-19 | 1 comentários | Compartilhar no WhatsApp

Stable Video 3D: síntese de novas visualizações de alta qualidade e geração 3D a partir de uma única imagem

Lançamento do Stable Video 3D (SV3D), um modelo generativo baseado no Stable Video Diffusion. A qualidade do vídeo e a consistência entre visualizações foram muito aprimoradas
Inclui duas variantes: SV3D_u e SV3D_p
- O SV3D_u gera um vídeo orbital com base na entrada de uma única imagem, sem condicionamento de câmera
- O SV3D_p amplia a funcionalidade para aceitar uma única imagem e também visualizações orbitais, gerando vídeo 3D ao longo de um caminho de câmera especificado
O Stable Video 3D pode ser usado para fins comerciais por meio da assinatura da Stability AI e, para uso não comercial, é possível baixar os pesos do modelo no Hugging Face e consultar o artigo de pesquisa

Vantagens do Video Diffusion

Ao aplicar o modelo de difusão image-to-video Stable Video Diffusion com a adição de condicionamento de caminho de câmera, o Stable Video 3D consegue gerar vídeos multiview de objetos
O uso de um modelo de Video Diffusion oferece vantagens importantes em termos de generalização dos resultados gerados e consistência entre visualizações, em comparação com o modelo de difusão de imagem usado no Stable Zero123
Além disso, aproveitando os recursos robustos do Stable Video 3D, é proposta uma otimização 3D aprimorada para gerar órbitas arbitrárias ao redor de objetos

Geração de novas visualizações

O SV3D introduz avanços importantes especialmente em síntese de novas visualizações (NVS)
Enquanto abordagens anteriores frequentemente enfrentavam limitações de perspectiva e inconsistências nos resultados, o SV3D fornece visualizações consistentes em qualquer ângulo fornecido
Essa capacidade não apenas melhora o controle de pose, mas também garante aparência consistente do objeto em múltiplas visualizações, aprimorando ainda mais um aspecto essencial da geração 3D realista e precisa

Geração 3D

O SV3D aproveita a consistência multiview para otimizar campos de radiância neural 3D (NeRF) e representações em malha, melhorando a qualidade de malhas 3D geradas diretamente a partir de novas visualizações
Para isso, foi projetada uma perda de amostragem por destilação com pontuação de máscara para melhorar ainda mais a qualidade 3D de áreas invisíveis nas visualizações previstas
Além disso, o SV3D usa um modelo de iluminação separado, otimizado junto com a forma 3D e a textura, para reduzir o problema de iluminação embutida

1 comentários

GN⁺ 2024-03-19

Comentários do Hacker News

O primeiro usuário tentou o modelo Stable Video 3D (SV3D) usando uma placa de vídeo 4090 (24 GB de VRAM), mas teve uma falha por falta de memória após mais de 1 minuto de execução. Ao ajustar o script para reduzir o número de frames gerados simultaneamente, conseguiu gerar com sucesso; o uso de VRAM chegou a no máximo 19,5 GB, levando 1 minuto e 25 segundos a 225 watts.

Stable Video 3D (SV3D): modelo generativo baseado em Stable Video Diffusion que recebe uma imagem estática como entrada e gera um vídeo orbital do objeto correspondente.
O segundo usuário pergunta se o SV3D consegue produzir um modelo 3D real ou se apenas gera imagens de como o objeto pareceria de outros ângulos.
O terceiro usuário acha que, se a animação apresentada for representativa, a malha gerada talvez seja boa o suficiente para uso em impressoras 3D, e espera por experimentos.
O quarto usuário pergunta sobre os requisitos de hardware ou memória para rodar o SV3D.
O quinto usuário quer saber se a entrada exige mais de uma imagem, se existe uma URL de demonstração para testar e pergunta se "entrada de imagem única" significa várias imagens.
O sexto usuário comenta que todos os exemplos parecem brinquedos infantis de plástico e quer saber como isso lidaria com outros objetos (pessoas, tecidos, prédios, plantas, montanhas, peças mecânicas etc.).
O sétimo usuário avalia a animação de demonstração como muito inteligente e satisfatória.
O oitavo usuário espera que esse tipo de tecnologia possa ser usado em design arquitetônico.
O nono e o décimo comentários estão marcados respectivamente como "[dead]" e "[flagged]", então não é possível saber o conteúdo.

Stability AI apresenta o Stable Video 3D

Stable Video 3D: síntese de novas visualizações de alta qualidade e geração 3D a partir de uma única imagem

Vantagens do Video Diffusion

Geração de novas visualizações

Geração 3D

Leituras relacionadas

1 comentários

Comentários do Hacker News