6 pontos por GN⁺ 2025-03-22 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Modelo de difusão latente (latent diffusion model) para geração ultrarrápida de cenas 3D
  • Pode gerar cenas 3D em alta resolução em menos de 7 segundos a partir de uma ou mais imagens de entrada
  • Foi treinado com um grande dataset de consistência multivisual e é até 300 vezes mais rápido que os modelos 3D existentes
  • Enquanto os modelos anteriores exigem um processo de otimização, o Bolt3D permite geração imediata de cenas com uma abordagem feed-forward

Limitações e problemas dos modelos existentes

  • Os modelos tradicionais de geração 2D conseguem criar imagens de alta qualidade, mas a geração de cenas 3D continua sendo difícil
  • Os modelos 3D existentes apresentam os seguintes problemas:
    • dificuldade para lidar com estruturas de dados 3D complexas
    • escassez de dados reais de cenas 3D de alta qualidade
    • alto custo computacional e baixa velocidade de processamento

Principais técnicas e estrutura do Bolt3D

Forma de representação 3D

  • Uso da representação 3D Gaussian:
    • um 3D Gaussian é composto por cor, posição, opacidade e matriz de covariância
    • a renderização de 3D Gaussian é feita por meio de uma imagem alinhada a pixels chamada Splatter Image
    • é possível completar até áreas não visíveis

Processo de geração do Bolt3D

  1. Estima a cena 3D a partir da imagem de entrada com um modelo de difusão latente (latent diffusion model)
  2. Codifica as informações geométricas no espaço latente por meio do Geometry VAE
  3. O Gaussian Head prevê e corrige atributos detalhados do 3D Gaussian, como opacidade e cor
  4. Realiza a renderização imediata da cena 3D em alta resolução

Estrutura do modelo

  • O modelo de difusão latente adota uma arquitetura derivada de modelos de geração de imagem 2D
  • O Geometry VAE codifica mapas de pontos 3D e poses de câmera
  • O Gaussian Head complementa os atributos detalhados da cena 3D gerada

Dataset e treinamento

  • Construção de um grande dataset multivisual:
    • inclui CO3D, MVImg, RealEstate10K, DL3DV-7K
    • composto por cerca de 300 mil cenas multivisual no total
    • uso da técnica MASt3R para obter dados geométricos precisos
  • Processo de treinamento:
    1. Geometry VAE: treinamento em resolução de 256×256 → 512×512
    2. Gaussian Head: correção da geração de Splatter Image
    3. Latent Diffusion Model: ajuste fino com base no modelo CAT3D

Resultados experimentais e comparação de desempenho

Comparação com modelos existentes

  • O Bolt3D apresenta desempenho superior aos modelos Flash3D e DepthSplat
  • Na comparação com o Flash3D, o Bolt3D registrou desempenho cerca de 3,6 pontos superior em PSNR, além de melhorias em SSIM e LPIPS
  • Na comparação com o DepthSplat, o Bolt3D também ficou à frente em todos os indicadores de desempenho
  • Em especial, o ganho de desempenho foi maior nos casos em que havia apenas uma imagem de entrada

Comparação com modelos baseados em otimização

  • Em comparação com modelos baseados em otimização, como o CAT3D, o Bolt3D oferece desempenho semelhante ou superior e ainda registra velocidade 300 vezes maior
  • No caso do CAT3D, a geração de uma cena leva cerca de 5 minutos, enquanto o Bolt3D consegue executar a mesma tarefa em apenas 6,25 segundos
  • Em métricas de desempenho, o CAT3D obteve um PSNR ligeiramente superior ao do Bolt3D, mas em velocidade de processamento o Bolt3D mostrou desempenho esmagadoramente melhor

Melhorias na estrutura e na arquitetura do modelo

Melhorias no Geometry VAE

  • Uso de um VAE dedicado a informações geométricas → maior precisão do que um VAE de imagem genérico
  • Aplicação de escalonamento não linear e mapeamento de profundidade → melhora do desempenho do modelo

Melhorias no Gaussian Head

  • Integração e correção de informações de múltiplas visões
  • Aplicação de Cross-Attention → permite completar até áreas não visíveis

Conclusão e implicações

  • O Bolt3D possibilita geração rápida de cenas 3D por meio de aprendizado de informações geométricas e de uma abordagem feed-forward
  • Houve melhora tanto em desempenho quanto em velocidade em relação aos modelos anteriores
  • Permite geração imediata de cenas 3D de alta qualidade em várias áreas de aplicação:
    • desenvolvimento de jogos
    • realidade virtual (VR) e realidade aumentada (AR)
    • visualização em arquitetura e design
  • Com uma velocidade de processamento 300 vezes maior, tem alto potencial de comercialização e expansão

Resumo dos principais resultados

  • Geração de cenas 3D em menos de 7 segundos
  • Desempenho 300 vezes mais rápido que os modelos existentes
  • Garantia de detalhamento em alta resolução e consistência
  • Alto desempenho em visão única e múltiplas visões
  • Possibilidade de complementação natural mesmo em cenas complexas e incompletas

Ainda não há comentários.

Ainda não há comentários.