- Modelo de difusão latente (latent diffusion model) para geração ultrarrápida de cenas 3D
- Pode gerar cenas 3D em alta resolução em menos de 7 segundos a partir de uma ou mais imagens de entrada
- Foi treinado com um grande dataset de consistência multivisual e é até 300 vezes mais rápido que os modelos 3D existentes
- Enquanto os modelos anteriores exigem um processo de otimização, o Bolt3D permite geração imediata de cenas com uma abordagem feed-forward
Limitações e problemas dos modelos existentes
- Os modelos tradicionais de geração 2D conseguem criar imagens de alta qualidade, mas a geração de cenas 3D continua sendo difícil
- Os modelos 3D existentes apresentam os seguintes problemas:
- dificuldade para lidar com estruturas de dados 3D complexas
- escassez de dados reais de cenas 3D de alta qualidade
- alto custo computacional e baixa velocidade de processamento
Principais técnicas e estrutura do Bolt3D
Forma de representação 3D
- Uso da representação 3D Gaussian:
- um 3D Gaussian é composto por cor, posição, opacidade e matriz de covariância
- a renderização de 3D Gaussian é feita por meio de uma imagem alinhada a pixels chamada Splatter Image
- é possível completar até áreas não visíveis
Processo de geração do Bolt3D
- Estima a cena 3D a partir da imagem de entrada com um modelo de difusão latente (latent diffusion model)
- Codifica as informações geométricas no espaço latente por meio do Geometry VAE
- O Gaussian Head prevê e corrige atributos detalhados do 3D Gaussian, como opacidade e cor
- Realiza a renderização imediata da cena 3D em alta resolução
Estrutura do modelo
- O modelo de difusão latente adota uma arquitetura derivada de modelos de geração de imagem 2D
- O Geometry VAE codifica mapas de pontos 3D e poses de câmera
- O Gaussian Head complementa os atributos detalhados da cena 3D gerada
Dataset e treinamento
- Construção de um grande dataset multivisual:
- inclui CO3D, MVImg, RealEstate10K, DL3DV-7K
- composto por cerca de 300 mil cenas multivisual no total
- uso da técnica MASt3R para obter dados geométricos precisos
- Processo de treinamento:
- Geometry VAE: treinamento em resolução de 256×256 → 512×512
- Gaussian Head: correção da geração de Splatter Image
- Latent Diffusion Model: ajuste fino com base no modelo CAT3D
Resultados experimentais e comparação de desempenho
Comparação com modelos existentes
- O Bolt3D apresenta desempenho superior aos modelos Flash3D e DepthSplat
- Na comparação com o Flash3D, o Bolt3D registrou desempenho cerca de 3,6 pontos superior em PSNR, além de melhorias em SSIM e LPIPS
- Na comparação com o DepthSplat, o Bolt3D também ficou à frente em todos os indicadores de desempenho
- Em especial, o ganho de desempenho foi maior nos casos em que havia apenas uma imagem de entrada
Comparação com modelos baseados em otimização
- Em comparação com modelos baseados em otimização, como o CAT3D, o Bolt3D oferece desempenho semelhante ou superior e ainda registra velocidade 300 vezes maior
- No caso do CAT3D, a geração de uma cena leva cerca de 5 minutos, enquanto o Bolt3D consegue executar a mesma tarefa em apenas 6,25 segundos
- Em métricas de desempenho, o CAT3D obteve um PSNR ligeiramente superior ao do Bolt3D, mas em velocidade de processamento o Bolt3D mostrou desempenho esmagadoramente melhor
Melhorias na estrutura e na arquitetura do modelo
Melhorias no Geometry VAE
- Uso de um VAE dedicado a informações geométricas → maior precisão do que um VAE de imagem genérico
- Aplicação de escalonamento não linear e mapeamento de profundidade → melhora do desempenho do modelo
Melhorias no Gaussian Head
- Integração e correção de informações de múltiplas visões
- Aplicação de Cross-Attention → permite completar até áreas não visíveis
Conclusão e implicações
- O Bolt3D possibilita geração rápida de cenas 3D por meio de aprendizado de informações geométricas e de uma abordagem feed-forward
- Houve melhora tanto em desempenho quanto em velocidade em relação aos modelos anteriores
- Permite geração imediata de cenas 3D de alta qualidade em várias áreas de aplicação:
- desenvolvimento de jogos
- realidade virtual (VR) e realidade aumentada (AR)
- visualização em arquitetura e design
- Com uma velocidade de processamento 300 vezes maior, tem alto potencial de comercialização e expansão
Resumo dos principais resultados
- Geração de cenas 3D em menos de 7 segundos
- Desempenho 300 vezes mais rápido que os modelos existentes
- Garantia de detalhamento em alta resolução e consistência
- Alto desempenho em visão única e múltiplas visões
- Possibilidade de complementação natural mesmo em cenas complexas e incompletas
Ainda não há comentários.