3 pontos por GN⁺ 2025-01-23 | 1 comentários | Compartilhar no WhatsApp
  • Hunyuan3D 2.0 é um sistema de síntese 3D em larga escala para gerar assets 3D com texturas em alta resolução
  • Dois componentes principais:
    • Hunyuan3D-DiT: modelo de geração de formas em larga escala, construído com base em um fusion transformer de difusão baseado em fluxo escalável, fornecendo uma base estável ao gerar geometria alinhada a imagens condicionais específicas
    • Hunyuan3D-Paint: gera mapas de textura em alta resolução e vívidos para meshes geradas ou meshes feitas manualmente, aproveitando forte conhecimento prévio de geometria e difusão
  • Hunyuan3D-Studio é uma plataforma que facilita o processo de regeneração de assets 3D, permitindo que tanto especialistas quanto amadores manipulem ou animem meshes com eficiência
  • Hunyuan3D 2.0 apresenta desempenho superior em relação a modelos open source e proprietários existentes: detalhes geométricos, alinhamento condicional, qualidade de textura etc.

Hunyuan3D 2.0

Arquitetura

  • Pipeline de geração em duas etapas: geração de mesh seguida de síntese de mapa de textura
  • Separa as dificuldades da geração de forma e de textura, oferecendo texturização flexível para meshes geradas ou meshes feitas manualmente

Desempenho

  • Hunyuan3D 2.0 apresenta desempenho superior quando comparado a outros métodos open source e proprietários de geração 3D
  • Supera todos os referenciais em CMMD, FID_CLIP, FID e CLIP-score

Modelos pré-treinados

  • Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B parâmetros
  • Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B parâmetros
  • Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B parâmetros

Como usar a API

  • API projetada no estilo diffusers para usar os modelos Hunyuan3D-DiT e Hunyuan3D-Paint
  • É possível gerar meshes com Hunyuan3D-DiT
  • É possível sintetizar texturas com Hunyuan3D-Paint

App Gradio

  • Pode ser hospedado em um computador pessoal por meio do app Gradio

📑 Plano open source

  • Inclui código de inferência, checkpoints dos modelos, relatório técnico, ComfyUI e versão TensorRT

1 comentários

 
GN⁺ 2025-01-23
Comentários no Hacker News
  • Em uma pergunta relacionada a modelos de malha 3D, houve uma discussão sobre a existência de um modelo adequado para fotogrametria. Foram usadas fotos de alta qualidade, iluminação consistente e fundo de cor única, mas aplicações comuns geram malhas com poucos polígonos ou com muitos buracos.

  • Houve a opinião de que a IA generativa reduzirá a custo marginal de criação de conteúdo 3D interativo a zero. Isso tem potencial para impulsionar o metaverso.

  • A licença do Tencent Hunyuan 3D 2.0 não se aplica na União Europeia, no Reino Unido e na Coreia do Sul.

  • Há um diagrama mostrando que a malha é gerada com o algoritmo marching cubes, mas houve a opinião de que, na prática, ela parece ser gerada de outra forma.

  • Houve uma pergunta sobre a possibilidade de executar o modelo de IA em casa. Por exemplo, discutiu-se se ele pode rodar em uma placa gráfica 4090.

  • Houve a opinião de que qualquer coisa que inclua a palavra "avançado" é algo bom.

  • Sistemas de conteúdo gerado pelo usuário podem sofrer do problema do "pênis".

  • Houve a opinião de que modelos generativos devem ser confiados, mas verificados. É importante testar diretamente.

  • Tentaram usar o modelo com link na página do Huggingface, mas não conseguiram testá-lo por causa de um erro de uso excessivo. Os resultados parecem bem bons.

  • São necessários prompts longos, o que pode gerar desconfiança. Tentaram usar prompts simples para descobrir o quão difícil é o uso real.

  • O resultado do prompt "guitarra" apareceu como uma guitarra um pouco grossa, e o prompt "folha de monstera" apareceu com uma forma um pouco estranha.

  • O resultado do prompt do personagem "Super Mario" é suspeito. Luigi deveria aparecer de forma diferente de Mario, mas isso não acontece.

  • O resultado do prompt "Peach" provoca risos. Ela aparece como um pêssego com um rosto fofo.

  • O resultado do prompt "Toad" parece um Squirtle deformado.

  • O artigo pode ser consultado no arXiv. Modelos generativos são treinados com base em muitos dados e talvez precisem de uma interface semelhante à de um banco de dados.

  • É possível imaginar um modelo voltado para objetos funcionais de impressão 3D.