- Hunyuan3D 2.0 é um sistema de síntese 3D em larga escala para gerar assets 3D com texturas em alta resolução
- Dois componentes principais:
- Hunyuan3D-DiT: modelo de geração de formas em larga escala, construído com base em um fusion transformer de difusão baseado em fluxo escalável, fornecendo uma base estável ao gerar geometria alinhada a imagens condicionais específicas
- Hunyuan3D-Paint: gera mapas de textura em alta resolução e vívidos para meshes geradas ou meshes feitas manualmente, aproveitando forte conhecimento prévio de geometria e difusão
- Hunyuan3D-Studio é uma plataforma que facilita o processo de regeneração de assets 3D, permitindo que tanto especialistas quanto amadores manipulem ou animem meshes com eficiência
- Hunyuan3D 2.0 apresenta desempenho superior em relação a modelos open source e proprietários existentes: detalhes geométricos, alinhamento condicional, qualidade de textura etc.
Hunyuan3D 2.0
Arquitetura
- Pipeline de geração em duas etapas: geração de mesh seguida de síntese de mapa de textura
- Separa as dificuldades da geração de forma e de textura, oferecendo texturização flexível para meshes geradas ou meshes feitas manualmente
Desempenho
- Hunyuan3D 2.0 apresenta desempenho superior quando comparado a outros métodos open source e proprietários de geração 3D
- Supera todos os referenciais em CMMD, FID_CLIP, FID e CLIP-score
Modelos pré-treinados
- Hunyuan3D-DiT-v2-0: 2025-01-21, 2.6B parâmetros
- Hunyuan3D-Paint-v2-0: 2025-01-21, 1.3B parâmetros
- Hunyuan3D-Delight-v2-0: 2025-01-21, 1.3B parâmetros
Como usar a API
- API projetada no estilo diffusers para usar os modelos Hunyuan3D-DiT e Hunyuan3D-Paint
- É possível gerar meshes com Hunyuan3D-DiT
- É possível sintetizar texturas com Hunyuan3D-Paint
App Gradio
- Pode ser hospedado em um computador pessoal por meio do app Gradio
📑 Plano open source
- Inclui código de inferência, checkpoints dos modelos, relatório técnico, ComfyUI e versão TensorRT
1 comentários
Comentários no Hacker News
Em uma pergunta relacionada a modelos de malha 3D, houve uma discussão sobre a existência de um modelo adequado para fotogrametria. Foram usadas fotos de alta qualidade, iluminação consistente e fundo de cor única, mas aplicações comuns geram malhas com poucos polígonos ou com muitos buracos.
Houve a opinião de que a IA generativa reduzirá a custo marginal de criação de conteúdo 3D interativo a zero. Isso tem potencial para impulsionar o metaverso.
A licença do Tencent Hunyuan 3D 2.0 não se aplica na União Europeia, no Reino Unido e na Coreia do Sul.
Há um diagrama mostrando que a malha é gerada com o algoritmo marching cubes, mas houve a opinião de que, na prática, ela parece ser gerada de outra forma.
Houve uma pergunta sobre a possibilidade de executar o modelo de IA em casa. Por exemplo, discutiu-se se ele pode rodar em uma placa gráfica 4090.
Houve a opinião de que qualquer coisa que inclua a palavra "avançado" é algo bom.
Sistemas de conteúdo gerado pelo usuário podem sofrer do problema do "pênis".
Houve a opinião de que modelos generativos devem ser confiados, mas verificados. É importante testar diretamente.
Tentaram usar o modelo com link na página do Huggingface, mas não conseguiram testá-lo por causa de um erro de uso excessivo. Os resultados parecem bem bons.
São necessários prompts longos, o que pode gerar desconfiança. Tentaram usar prompts simples para descobrir o quão difícil é o uso real.
O resultado do prompt "guitarra" apareceu como uma guitarra um pouco grossa, e o prompt "folha de monstera" apareceu com uma forma um pouco estranha.
O resultado do prompt do personagem "Super Mario" é suspeito. Luigi deveria aparecer de forma diferente de Mario, mas isso não acontece.
O resultado do prompt "Peach" provoca risos. Ela aparece como um pêssego com um rosto fofo.
O resultado do prompt "Toad" parece um Squirtle deformado.
O artigo pode ser consultado no arXiv. Modelos generativos são treinados com base em muitos dados e talvez precisem de uma interface semelhante à de um banco de dados.
É possível imaginar um modelo voltado para objetos funcionais de impressão 3D.