- A síntese tradicional de texto para imagem tornou-se possível graças a modelos de difusão treinados com bilhões de pares imagem-texto
- Para aplicar essa abordagem em 3D, seriam necessários um grande dataset 3D rotulado e uma arquitetura para remoção de ruído, mas isso não existe
- Por isso, a síntese de Text-to-3D é realizada aproveitando um modelo de difusão 2D de Text-to-Image pré-treinado
- O modelo 3D criado a partir de texto pode ser visto de todos os ângulos, além de permitir mudar a iluminação ou compô-lo em outros ambientes 3D
Ainda não há comentários.