1 pontos por GN⁺ 2023-12-14 | 1 comentários | Compartilhar no WhatsApp

Campos de radiância com eficiência de memória e streaming (SMERF) para exploração em tempo real de cenas de grande escala

  • Os avanços nas técnicas de síntese de vistas em tempo real tornaram possível renderizar cenas quase fotorrealistas em tempo real.
  • Existe uma tensão entre representações explícitas de cena compatíveis com rasterização e campos neurais baseados em ray marching.
  • O SMERF apresenta uma abordagem de síntese de vistas que alcança a melhor precisão em tempo real em cenas de grande escala.

Como aumentar a capacidade de representação para lidar com cenas de grande escala

  • Modela cenas grandes com múltiplos cômodos como vários submodelos independentes e seleciona o submodelo durante a renderização com base na origem da câmera.
  • Para modelar efeitos complexos dependentes da vista, instancia adicionalmente parâmetros de MLP atrasada alinhados à grade dentro de cada submodelo.
  • Cada submodelo representa a cena inteira, mas apenas as células da grade atribuídas ao submodelo são modeladas em alta resolução.

Como usar destilação para maximizar a capacidade de representação

  • Mostra que a qualidade da imagem pode ser bastante melhorada por meio de destilação.
  • Primeiro treina um campo de radiância offline de última geração (Zip-NeRF) e usa as previsões de cor RGB desse modelo como supervisão para o próprio modelo.
  • Minimiza os valores de densidade volumétrica do modelo professor para reduzir a diferença nos pesos de renderização volumétrica entre professor e aluno.

Opinião do GN⁺

  • O SMERF é uma tecnologia inovadora que possibilita síntese de vistas de alta qualidade em tempo real em cenas de grande escala.
  • Essa tecnologia permite navegação em 6DOF dentro do navegador web e oferece desempenho em tempo real em vários dispositivos comuns de consumo.
  • A abordagem do SMERF demonstra desempenho superior às tecnologias existentes no campo da síntese de vistas em tempo real, sendo um avanço interessante com potencial de aplicação em áreas como realidade virtual, desenvolvimento de jogos e tours imobiliários online.

1 comentários

 
GN⁺ 2023-12-14
Comentários do Hacker News
  • O espelho na parede de um banheiro em Berlim permite ver a cozinha do cômodo ao lado. Presume-se que isso aconteça porque o algoritmo de medição de profundidade usa paralaxe e o espelho o confunde como se fosse uma janela. A parte de trás do espelho cria uma área borrada na cozinha, mas por meio desse borrado é possível ver os dois cômodos. O efeito é um pouco assustador. Dá uma sensação fantasmagórica de atravessar a parede. Funciona impressionantemente bem até em um s21fe de 2 anos.
  • É muito impressionante ver mais imagens sendo transmitidas em streaming enquanto se explora o espaço na demo de Berlim. O efeito de reflexo na TV também é muito impressionante. Mas a cena não é renderizada até que todas as imagens sejam carregadas, então demora bastante para carregar todas as cerca de 40 imagens iniciais. Fico curioso se seria possível começar a renderizar parcialmente à medida que as imagens chegam, ou se é necessário esperar todas antes de fazer a primeira renderização grande.
  • Tenho algumas perguntas sobre a demo fulllivingroom. (Prefiro o modo FPS)
    1. Quantas imagens foram usadas como entrada?
    2. Quanto tempo leva para calcular esse modelo?
    3. Quanto tempo leva para preparar esse modelo no navegador com todos os níveis e afins?
    4. Vocês já tentaram isso em VR?
  • Fico curioso sobre qual é a relação entre esta técnica de renderização e as cenas de BD geradas em Cyberpunk 2077. O comportamento do volume e dos "voxels" parece muito parecido.
  • Venho acompanhando essa tecnologia pelo Two Minute Papers e estou ansioso para usá-la. Meu avô faleceu há 2 anos, e tirei fotos como as usadas na demo. Obrigado.
  • Fico curioso se existe um toolchain open source para capturar, processar e hospedar walkthroughs 3D exploráveis (por exemplo, algo como um Matterport open source).
  • É muito impressionante qualquer informação sobre como essa técnica se compara ao 3D Gaussian Splatting em termos de desempenho, qualidade ou tamanho dos dados.
  • O que dá para ver dessas tecnologias é uma imagem 3D única e navegável muito precisa. Porém, ainda não vi nada sobre detecção de recursos e objetos, oclusão e extração. Tomara que um codec mais eficiente e passível de streaming também exija uma estrutura que possa ser aplicada mais facilmente à análise.
  • Fico curioso sobre quando veremos essa tecnologia em VR de consumo. Eu esperava que já existisse, mas parece que ainda não, por limitações computacionais. Fico curioso se isso resolve as restrições computacionais o suficiente para rodar em um Quest 2/3, ou se há outros fatores que impedem o uso binocular.
  • Pergunta aos autores: fico curioso se há alguma chance de reconstruir o modelo de uma cena sem usar métodos de otimização ou ajuste. Vocês estão melhorando uma forma eficiente de renderizar vistas da cena, mas a cena ainda é estática. Também leva tempo para reconstruí-la. Fico curioso se existe alguma forma de alcançar a ótima aparência e os detalhes de RF e GS sem o custo caro de reconstrução, e se, agora que a renderização está rápida, haveria uma maneira de reconstruir a cena de forma gulosa usando métodos tradicionais de CG com essa nova representação. Peço desculpas antecipadamente se entendi algo errado, e agradeço muito pelo trabalho que vocês estão realizando.