Hunyuan3D 2.0 – Sistema da Tencent para geração de assets 3D em alta resolução

(github.com/Tencent)

3 pontos por GN⁺ 2025-01-23 | 1 comentários | Compartilhar no WhatsApp

Hunyuan3D 2.0 é um sistema de síntese 3D em larga escala para gerar assets 3D com texturas em alta resolução
Dois componentes principais:
- Hunyuan3D-DiT: modelo de geração de formas em larga escala, construído com base em um fusion transformer de difusão baseado em fluxo escalável, fornecendo uma base estável ao gerar geometria alinhada a imagens condicionais específicas
- Hunyuan3D-Paint: gera mapas de textura em alta resolução e vívidos para meshes geradas ou meshes feitas manualmente, aproveitando forte conhecimento prévio de geometria e difusão
Hunyuan3D-Studio é uma plataforma que facilita o processo de regeneração de assets 3D, permitindo que tanto especialistas quanto amadores manipulem ou animem meshes com eficiência
Hunyuan3D 2.0 apresenta desempenho superior em relação a modelos open source e proprietários existentes: detalhes geométricos, alinhamento condicional, qualidade de textura etc.

Hunyuan3D 2.0

Arquitetura

Pipeline de geração em duas etapas: geração de mesh seguida de síntese de mapa de textura
Separa as dificuldades da geração de forma e de textura, oferecendo texturização flexível para meshes geradas ou meshes feitas manualmente

Desempenho

Hunyuan3D 2.0 apresenta desempenho superior quando comparado a outros métodos open source e proprietários de geração 3D
Supera todos os referenciais em CMMD, FID_CLIP, FID e CLIP-score

Modelos pré-treinados

Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B parâmetros
Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B parâmetros
Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B parâmetros

Como usar a API

API projetada no estilo diffusers para usar os modelos Hunyuan3D-DiT e Hunyuan3D-Paint
É possível gerar meshes com Hunyuan3D-DiT
É possível sintetizar texturas com Hunyuan3D-Paint

App Gradio

Pode ser hospedado em um computador pessoal por meio do app Gradio

📑 Plano open source

Inclui código de inferência, checkpoints dos modelos, relatório técnico, ComfyUI e versão TensorRT

1 comentários

GN⁺ 2025-01-23

Comentários no Hacker News

Em uma pergunta relacionada a modelos de malha 3D, houve uma discussão sobre a existência de um modelo adequado para fotogrametria. Foram usadas fotos de alta qualidade, iluminação consistente e fundo de cor única, mas aplicações comuns geram malhas com poucos polígonos ou com muitos buracos.
Houve a opinião de que a IA generativa reduzirá a custo marginal de criação de conteúdo 3D interativo a zero. Isso tem potencial para impulsionar o metaverso.
A licença do Tencent Hunyuan 3D 2.0 não se aplica na União Europeia, no Reino Unido e na Coreia do Sul.
Há um diagrama mostrando que a malha é gerada com o algoritmo marching cubes, mas houve a opinião de que, na prática, ela parece ser gerada de outra forma.
Houve uma pergunta sobre a possibilidade de executar o modelo de IA em casa. Por exemplo, discutiu-se se ele pode rodar em uma placa gráfica 4090.
Houve a opinião de que qualquer coisa que inclua a palavra "avançado" é algo bom.
Sistemas de conteúdo gerado pelo usuário podem sofrer do problema do "pênis".
Houve a opinião de que modelos generativos devem ser confiados, mas verificados. É importante testar diretamente.
Tentaram usar o modelo com link na página do Huggingface, mas não conseguiram testá-lo por causa de um erro de uso excessivo. Os resultados parecem bem bons.
São necessários prompts longos, o que pode gerar desconfiança. Tentaram usar prompts simples para descobrir o quão difícil é o uso real.
O resultado do prompt "guitarra" apareceu como uma guitarra um pouco grossa, e o prompt "folha de monstera" apareceu com uma forma um pouco estranha.
O resultado do prompt do personagem "Super Mario" é suspeito. Luigi deveria aparecer de forma diferente de Mario, mas isso não acontece.
O resultado do prompt "Peach" provoca risos. Ela aparece como um pêssego com um rosto fofo.
O resultado do prompt "Toad" parece um Squirtle deformado.
O artigo pode ser consultado no arXiv. Modelos generativos são treinados com base em muitos dados e talvez precisem de uma interface semelhante à de um banco de dados.
É possível imaginar um modelo voltado para objetos funcionais de impressão 3D.

Hunyuan3D 2.0 – Sistema da Tencent para geração de assets 3D em alta resolução

Hunyuan3D 2.0

Arquitetura

Desempenho

Modelos pré-treinados

Como usar a API

App Gradio

📑 Plano open source

Leituras relacionadas

1 comentários

Comentários no Hacker News