1 pontos por GN⁺ 2024-05-18 | 1 comentários | Compartilhar no WhatsApp
  • Humanos conseguem perceber o mundo 3D mesmo em imagens sem consistência 3D
  • O Toon3D consegue recuperar poses de câmera e geometria densa por meio de otimização deformável piecewise-rigid
  • Cenas desenhadas à mão não têm consistência 3D, mas com o Toon3D é possível recuperá-las e interpolar novas visualizações nunca vistas antes

Resumo

  • Proposta do Toon3D
    • Recupera a estrutura 3D subjacente de cenas geometricamente inconsistentes
    • Foca em imagens desenhadas à mão de quadrinhos e animações
    • Muitos quadrinhos são desenhados diretamente por artistas, sem um motor de renderização 3D
    • Imagens desenhadas à mão representam o mundo com fidelidade qualitativa, mas é difícil desenhar múltiplos pontos de vista com consistência 3D
    • Pessoas conseguem reconhecer facilmente cenas 3D mesmo com entradas inconsistentes
    • Corrige inconsistências em desenhos 2D para que as imagens recém-deformadas fiquem consistentes entre si
    • Recupera estrutura densa por meio de uma ferramenta de anotação amigável, estimativa de poses de câmera e deformação de imagem
    • Ao deformar as imagens para se ajustarem a um modelo de câmera em perspectiva, pode ser integrado a métodos de reconstrução para gerar novas views

Reconstrução de quadrinhos

  • Primeiro recupera poses de câmera e uma nuvem de pontos alinhada
  • Inicializa gaussianas a partir da nuvem de pontos densa e otimiza Gaussian Splatting com as câmeras recuperadas
  • Inclui regularização de profundidade e foi construído com base no Nerfstudio
  • Mostra uma renderização fly-through da cena

Método

  • Prevê a profundidade de cada imagem com Marigold e obtém máscaras temporárias candidatas com SAM
  • Rotula as imagens com o rotulador Toon3D para obter correspondências e marcar regiões temporárias
  • Otimiza as poses de câmera e corrige a distorção das imagens para obter câmeras em perspectiva corrigidas
  • Inicializa gaussianas com a nuvem de pontos densa alinhada e executa o refinamento

Rotulador Toon3D

  • Mostra duas etapas principais do método
    • Vídeo de alinhamento esparso: estimativa aproximada dos parâmetros da câmera
    • Vídeo de alinhamento denso: mostra como alinhar em 3D usando várias camadas (câmera, correspondências esparsas, malha de distorção etc.)

Explorando o interior da casa de Rick and Morty

  • Reconstrói o interior da casa de Rick and Morty conectando o cômodo por meio da rotulagem de paredes e teto
  • O primeiro vídeo mostra a nuvem de pontos, as câmeras e a interface personalizada de rotulagem
  • No segundo vídeo, é possível percorrer o interior da casa arrastando o slider

Nuvem de pontos e câmeras

  • Mostra a nuvem de pontos e as câmeras recuperadas de 12 cenas de quadrinhos do dataset Toon3D
  • É possível explorar a cena clicando nos ícones

Reconstrução com views esparsas

  • É possível reconstruir a cena com poucas imagens e grandes mudanças de ponto de vista
  • Onde o COLMAP pode falhar, humanos podem intervir com o rotulador Toon3D para obter correspondências anotadas manualmente
  • Mostra renderizações fly-through de dois cômodos de um anúncio do Airbnb ("sala de estar" e "quarto 2")

Visualização de inconsistências

  • Como os quadrinhos são desenhados à mão, é necessário deformar as imagens para garantir consistência 3D
  • Primeiro item: vídeo em que ocorre distorção durante a otimização de alinhamento
  • Os dois itens seguintes: imagens mostrando o desenho original, o desenho distorcido e a sobreposição entre ambos
  • Áreas borradas indicam onde houve muita distorção

Reconstrução de desenhos

  • Também é possível reconstruir ilustrações desenhadas à mão usando Toon3D
  • Primeiro prevê a profundidade de cada imagem, depois alinha e deforma a nuvem de pontos
  • Por fim, usa refinamento gaussiano para gerar o vídeo

Opinião do GN⁺

  • O Toon3D é uma forma inovadora de reconstruir em 3D imagens desenhadas à mão de quadrinhos e animações
  • Essa tecnologia oferece uma nova experiência visual e pode ser especialmente útil na produção de animação e no desenvolvimento de jogos
  • No entanto, o processo de rotulagem manual pode ser um pouco trabalhoso, e seria bom ver métodos automatizados mais avançados
  • Outros projetos com funcionalidades semelhantes incluem COLMAP e Nerfstudio
  • Ao adotar essa tecnologia, a rotulagem precisa e a previsão de profundidade são importantes para obter reconstruções 3D mais consistentes

1 comentários

 
GN⁺ 2024-05-18
Opinião no Hacker News

Resumo da coletânea de comentários do Hacker News

  • Exemplo do prédio da Planet Express de Futurama

    • É interessante que o prédio da Planet Express, de Futurama, tenha sido usado como exemplo de inconsistência 3D. Na verdade, parece ter sido criado a partir de um modelo 3D.
    • Não sou artista gráfico, mas valorizo o fato de que a arte de ilustradores usa técnicas criativas de expressão para transmitir significados complexos.
    • Isso lembra reconstruções de espaço 3D “confusas”, semelhantes ao hype recente em torno de LLMs (grandes modelos de linguagem).
  • A diversão de gerar espaços 3D

    • Criar um espaço 3D a partir de imagens de origem inconsistentes é uma ideia muito divertida.
    • Alguns anos atrás, tentei converter imagens abstratas e não espaciais em espaços de realidade virtual. Por exemplo, transformar pinturas abstratas de Kandinsky ou Pollock em espaços de realidade virtual exploráveis.
    • O fluxo de trabalho começava com uma imagem abstrata, usava o SinGan para gerar “pontos de vista” alternativos da “cena”, depois fazia o mapeamento de profundidade com inpainting de fotos 3D e, por fim, colocava os quadros em um app de fotogrametria.
  • Possibilidade futura de geração de modelos 3D

    • É surpreendente que seja possível gerar um modelo 3D, ainda que de baixa qualidade, com base em um desenho de uma cena imaginada.
    • No futuro, talvez artistas consigam obter um modelo 3D preciso usando apenas algumas imagens.
    • Há preocupação com o impacto que ferramentas semelhantes à IA podem ter sobre artistas. Ainda assim, é possível imaginar um futuro em que sistemas baseados em machine learning colaborem de forma mais direta com artistas.
    • Ao pensar no valor de artistas criarem arte, a substituição de artistas por IA pode trazer consequências ruins para a civilização como um todo.
  • Problema da conversão de arte 2D para 3D

    • Obras em 2D não têm um espaço 3D consistente. Não parece que isso tenha sido resolvido de forma útil.
    • Ao sair da posição original da câmera, a cena quase não mantém consistência.
  • Fotogrametria e VR

    • Houve experiência estudando fotogrametria com um Quest 2. Foi explorado um pipeline para criar modelos 3D usando fotos tiradas de vários ângulos.
    • Ao portar para VR, o importante é criar uma malha limpa. As ferramentas atuais não geram meshes 3D.
    • Havia motivação para criar modelos como os da Matterport e vendê-los para empresas imobiliárias. Porém, a etapa de gerar automaticamente uma malha limpa é a que mais exige trabalho.
  • Necessidade de melhorar o algoritmo

    • O desempenho não é bom na reprodução da aparência a partir da perspectiva de certas imagens. Um exemplo é o do Magic Schoolbus.
    • O algoritmo precisa ser ajustado para confiar mais nas imagens.
  • Problema de autoplay de vídeos no site

    • É incômodo quando um site faz todos os vídeos tocarem automaticamente e em loop. Ao visitar o site enquanto se assiste a um vídeo em uma segunda tela, ocorrem travamentos.
  • A reação de Miyazaki

    • Se o exemplo de Spirited Away fosse mostrado ao Miyazaki, ele provavelmente diria que é um insulto à própria vida.
  • Resultados abaixo das expectativas

    • Todos os exemplos parecem muito ruins. Por causa do ruído e do desfoque nos quadros intermediários, não dá para usá-los junto com o original.
    • Os pontos de início e fim de cada elemento quase não se conectam. Paredes, portas e outros elementos voam até o destino, mas desaparecem a poucos pés da posição final.
    • A ideia é excelente, mas eu gostaria de ver uma versão que realmente funcione.