1 pontos por GN⁺ 2024-12-10 | 1 comentários | Compartilhar no WhatsApp

Introdução a um novo método de geração 3D

  • Representação Structured LATent (SLAT): apresenta uma representação latente estrutural unificada que pode ser decodificada em vários formatos de saída. Ela integra características visuais densas de múltiplas visualizações extraídas de modelos robustos baseados em visão com grades 3D preenchidas de forma esparsa, capturando de maneira abrangente informações estruturais (geométricas) e de textura (aparência).

  • Rectified Flow Transformers: um modelo de geração 3D projetado para o SLAT, com treinamento de modelos de até 2 bilhões de parâmetros em um grande conjunto de dados de ativos 3D composto por 500 mil objetos diversos. Gera resultados de alta qualidade com condicionamento por texto ou imagem, superando amplamente os métodos existentes.

Geração e edição de ativos 3D

  • Geração de ativos 3D com base em texto e imagem: o TRELLIS pode gerar diversos ativos 3D usando prompts de texto ou imagem. Os exemplos incluem um telefone rotativo de cobre, uma casa de tijolos de dois andares e um robô esférico.

  • Variações de ativos e edição local: pode gerar variações de um ativo 3D fornecido de acordo com um prompt de texto, além de manipular regiões específicas para criar novos designs. Por exemplo, é possível remover os braços de um robô de combate ou adicionar armas.

Aplicações e metodologia do TRELLIS

  • Design de arte 3D: ao combinar ativos 3D de alta qualidade gerados pelo TRELLIS, é possível criar com facilidade designs de arte 3D complexos e vibrantes.

  • Representação latente estrutural: o SLAT combina estrutura esparsa com representações visuais robustas para definir latentes locais em voxels ativos que cruzam a superfície do objeto. Essas características são derivadas de encoders de visão pré-treinados robustos e capturam propriedades geométricas e visuais detalhadas.

  • Modelo TRELLIS: treina um modelo de geração 3D em larga escala condicionado por prompt de texto ou imagem. Aplica um pipeline de duas etapas para gerar a estrutura esparsa do SLAT e depois gerar vetores latentes para células não vazias. Isso permite criar ativos 3D facilmente em diversos formatos de saída.

1 comentários

 
GN⁺ 2024-12-10
Comentários no Hacker News
  • Foi a primeira vez que me senti desconfortável ao ver conteúdo gerado por IA. Esse tipo de conteúdo é excelente, mas dá tristeza pensar que obras feitas por mãos humanas podem desaparecer. Prefiro mundos criados a partir da imaginação humana a jogos gerados proceduralmente.

    • Quero arte, não apenas conteúdo. Quero obras criadas por colegas colocando nelas sua própria visão e seus próprios valores.
  • Parece ser algo em que todo mundo vem pensando desde os demos de NeRF. Encontrei um comentário meu de 5 anos atrás. O próximo passo é adicionar “nós” a imagens 3D para criar conteúdo com animação e interação.

    • Inserir fotos da infância para recriar memórias e adicionar amostras de voz de pessoas queridas para tornar possível conversar com elas. Com VR e fones com cancelamento de ruído, a imersão pode ser ainda maior.
  • Não é perfeito, mas é o melhor gerador de modelos 3D que já testei até agora. Quero um formato de arquivo que eu possa jogar direto no Orca Slicer.

  • Tentei usar uma imagem do bombardeiro stealth F-117 da Wikipédia, mas o resultado foi um fracasso completo. Precisa de um recurso para enviar imagens de vários ângulos.

  • Fico me perguntando se existe algum demo do recurso "Text to 3D Asset".

  • Vi isso ter sido enviado há alguns dias, mas é um demo muito impressionante. Espero que seja discutido aqui.

  • Consigo ver o potencial, mas a imagem que forneci parece estar fora do escopo de treino, então ele só gera uns planos estranhos.

  • Usei layer diffusion para criar um dirigível low-poly. Já chegou a um nível em que dá para usar como asset de jogo.

  • Enviei fotos de cabos e plugues e ele gerou uma malha de plugue com fios individuais e os furos corretos.

  • A modelagem de flocos de neve no Nix foi muito ruim. Parece ter sido mais treinado em estruturas e texturas naturais e biológicas.