Bolt3D - modelo de geração ultrarrápida de cenas 3D

(szymanowiczs.github.io)

6 pontos por GN⁺ 2025-03-22 | Ainda não há comentários. | Compartilhar no WhatsApp

Modelo de difusão latente (latent diffusion model) para geração ultrarrápida de cenas 3D
Pode gerar cenas 3D em alta resolução em menos de 7 segundos a partir de uma ou mais imagens de entrada
Foi treinado com um grande dataset de consistência multivisual e é até 300 vezes mais rápido que os modelos 3D existentes
Enquanto os modelos anteriores exigem um processo de otimização, o Bolt3D permite geração imediata de cenas com uma abordagem feed-forward

Limitações e problemas dos modelos existentes

Os modelos tradicionais de geração 2D conseguem criar imagens de alta qualidade, mas a geração de cenas 3D continua sendo difícil
Os modelos 3D existentes apresentam os seguintes problemas:
- dificuldade para lidar com estruturas de dados 3D complexas
- escassez de dados reais de cenas 3D de alta qualidade
- alto custo computacional e baixa velocidade de processamento

Uso da representação 3D Gaussian:
- um 3D Gaussian é composto por cor, posição, opacidade e matriz de covariância
- a renderização de 3D Gaussian é feita por meio de uma imagem alinhada a pixels chamada Splatter Image
- é possível completar até áreas não visíveis

Estima a cena 3D a partir da imagem de entrada com um modelo de difusão latente (latent diffusion model)
Codifica as informações geométricas no espaço latente por meio do Geometry VAE
O Gaussian Head prevê e corrige atributos detalhados do 3D Gaussian, como opacidade e cor
Realiza a renderização imediata da cena 3D em alta resolução

O modelo de difusão latente adota uma arquitetura derivada de modelos de geração de imagem 2D
O Geometry VAE codifica mapas de pontos 3D e poses de câmera
O Gaussian Head complementa os atributos detalhados da cena 3D gerada

Construção de um grande dataset multivisual:
- inclui CO3D, MVImg, RealEstate10K, DL3DV-7K
- composto por cerca de 300 mil cenas multivisual no total
- uso da técnica MASt3R para obter dados geométricos precisos
Processo de treinamento:
1. Geometry VAE: treinamento em resolução de 256×256 → 512×512
2. Gaussian Head: correção da geração de Splatter Image
3. Latent Diffusion Model: ajuste fino com base no modelo CAT3D

O Bolt3D apresenta desempenho superior aos modelos Flash3D e DepthSplat
Na comparação com o Flash3D, o Bolt3D registrou desempenho cerca de 3,6 pontos superior em PSNR, além de melhorias em SSIM e LPIPS
Na comparação com o DepthSplat, o Bolt3D também ficou à frente em todos os indicadores de desempenho
Em especial, o ganho de desempenho foi maior nos casos em que havia apenas uma imagem de entrada

Em comparação com modelos baseados em otimização, como o CAT3D, o Bolt3D oferece desempenho semelhante ou superior e ainda registra velocidade 300 vezes maior
No caso do CAT3D, a geração de uma cena leva cerca de 5 minutos, enquanto o Bolt3D consegue executar a mesma tarefa em apenas 6,25 segundos
Em métricas de desempenho, o CAT3D obteve um PSNR ligeiramente superior ao do Bolt3D, mas em velocidade de processamento o Bolt3D mostrou desempenho esmagadoramente melhor

Uso de um VAE dedicado a informações geométricas → maior precisão do que um VAE de imagem genérico
Aplicação de escalonamento não linear e mapeamento de profundidade → melhora do desempenho do modelo

O Bolt3D possibilita geração rápida de cenas 3D por meio de aprendizado de informações geométricas e de uma abordagem feed-forward
Houve melhora tanto em desempenho quanto em velocidade em relação aos modelos anteriores
Permite geração imediata de cenas 3D de alta qualidade em várias áreas de aplicação:
- desenvolvimento de jogos
- realidade virtual (VR) e realidade aumentada (AR)
- visualização em arquitetura e design
Com uma velocidade de processamento 300 vezes maior, tem alto potencial de comercialização e expansão

Geração de cenas 3D em menos de 7 segundos
Desempenho 300 vezes mais rápido que os modelos existentes
Garantia de detalhamento em alta resolução e consistência
Alto desempenho em visão única e múltiplas visões
Possibilidade de complementação natural mesmo em cenas complexas e incompletas