Stable Fast 3D - gere geração rápida de assets 3D a partir de uma única imagem

(stability.ai)

3 pontos por GN⁺ 2024-08-02 | 1 comentários | Compartilhar no WhatsApp

Gera assets 3D de alta qualidade a partir de uma única imagem em apenas 0,5 segundo
Construído com base no TripoSR, com grandes melhorias de arquitetura e recursos aprimorados
Pode ser aplicado não só por desenvolvedores de jogos e realidade virtual, mas também por profissionais de varejo, arquitetura, design e outras áreas intensivas em gráficos
O modelo está disponível no Hugging Face e foi lançado sob a Stability AI Community License
É possível acessar facilmente o modelo pela Stability AI API e pelo chatbot Stable Assistant, além de compartilhar criações 3D em um visualizador 3D e testá-las em realidade aumentada
Pode ser testado com uma versão gratuita

Como funciona

O usuário começa enviando uma única imagem do objeto
O Stable Fast 3D gera rapidamente um asset 3D completo, incluindo malha com UV unwrapped, parâmetros de material e cores de albedo com iluminação reduzida
Opcionalmente, é possível realizar reconstrução em quads ou triângulos, adicionando apenas 100–200 ms ao tempo de processamento

Casos de uso

Aproveitar o tempo de inferência rápido em pré-produção, quando a experimentação é essencial
Assets estáticos para jogos (objetos de fundo, itens diversos, móveis)
Modelos 3D para e-commerce
Geração rápida de modelos para AR/VR

Velocidade e qualidade juntas

Desempenho superior em várias áreas-chave em comparação com concorrentes
Velocidade rápida de 0,5 segundo por asset 3D gerado em uma GPU com 7 GB de VRAM
Malhas UV unwrapped e parâmetros de material de alta qualidade
Menor interferência de iluminação nas texturas
Possibilidade de gerar parâmetros adicionais de material e mapas normais

Pesquisa e desenvolvimento

Baseado no TripoSR, mas com modelo totalmente retreinado e mudanças arquiteturais importantes
As melhorias incluem geração explícita de malha e novas técnicas para geração rápida de malha texturizada
O relatório técnico destaca como alcançar alta velocidade de inferência com iluminação baked reduzida e parâmetros de material

Disponibilidade

O código do modelo Stable Fast 3D está disponível no Github e no Hugging Face
Sob a Stability AI Community License, é permitido o uso não comercial e o uso comercial para empresas com receita anual de até $1M
O modelo pode ser acessado via API e Stable Assistant

Opinião do GN⁺

Essa tecnologia de geração de modelos 3D é interessante porque pode ser aplicada em várias áreas, como jogos, realidade virtual/aumentada, design e arquitetura. Em especial, a geração rápida de assets 3D de alta qualidade a partir de uma única imagem pode ajudar a aumentar a produtividade.
No entanto, à medida que esses modelos baseados em IA se popularizam, eles podem impactar os empregos de profissionais especializados, como designers gráficos e modeladores, já que assets 3D antes produzidos manualmente podem ser automatizados. Talvez a IA não substitua completamente as pessoas, mas uma redução parcial de funções parece inevitável.
Também é preciso considerar a questão dos direitos autorais dos modelos 3D gerados. Deve haver compensação ou crédito adequado para as imagens usadas no treinamento. Parece necessário estabelecer regulamentações e diretrizes legais para criações geradas por IA.
Tecnologias semelhantes incluem o Nvidia Instant Nerf e o RealityScan, da Epic Games. Elas oferecem a função de gerar modelos 3D a partir de fotos ou escaneamentos. A alta compatibilidade com engines de jogos é uma vantagem. Ainda assim, parece que elas ainda não atingem a mesma velocidade do Stable Fast 3D para produzir resultados de alta qualidade a partir de uma única imagem.
Em resumo, o Stable Fast 3D parece capaz de contribuir para o aumento da produtividade na área de gráficos 3D, como jogos e XR, ao combinar velocidade e qualidade. Ainda assim, será necessário avançar em um processo de consenso social sobre questões éticas e legais.

1 comentários

GN⁺ 2024-08-02

Comentários do Hacker News

Apesar de toda a expectativa em torno dos LLMs, a geração de imagens e de assets gráficos provavelmente tem mais chance de ser a vencedora de longo prazo da IA atual
- As "alucinações" são um recurso, não um bug
- É fácil ver saídas irreais e enviesadas sem testes estatísticos complexos
- A intuição humana é útil para avaliação e, ao contrário dos modelos de geração de texto, não é superestimada
- Métodos com perdas ou ruído também podem ser úteis para vários trabalhos criativos
- Não é necessário perfeição, e características distorcidas podem ser facilmente vistas e melhoradas
- Não é necessário consistência, mas quando ela surge pode oferecer grande valor para aplicações como vídeo
- Técnicas como LoRA permitem até que usuários sem muita experiência treinem facilmente modelos de personagens, estilos ou conceitos específicos
- Os modelos de geração de imagem/visual melhoraram muito no último ano, e o ritmo de melhoria não desacelerou em relação aos modelos de texto
- O futuro não será uma substituição total de fotógrafos, cineastas etc., mas sim uma geração de ferramentas poderosas baseadas em IA
- Ferramentas que permitem adicionar ou remover conceitos de uma imagem com alguns prompts de texto são extremamente úteis
- Assim como o Photoshop nos anos 90, está surgindo uma nova geração de usuários avançados
Na terceira imagem testada, todas as IAs 3D pareceram renderizações 2D de um modelo 3D
- Foi testado com uma imagem em cel shading, e a saída do modelo ficou muito plana e com topologia ruim
- Sem sombras corretas, parece que ele não consegue recalcular os vetores normais e, por isso, não entende a estrutura
- Seria bom especificar quais conjuntos de entrada devem gerar resultados adequados
Ainda não está perfeito, mas é bem legal
- Pode ser usado como decoração de baixo esforço para adicionar complexidade à cena principal, não como asset principal
- Pode ser usado em situações em que um impostor 2D em billboard não serviria
- É possível gerar uma imagem com Midjourney, Bing ou Dalle3, arrastar e soltar, e obter uma apresentação 3D surpreendentemente boa
- Pode ser usado como decoração em cenas 3D nas quais a câmera não vê a parte de trás
Mal posso esperar para essa tecnologia melhorar
- Os resultados dos testes não foram úteis
- É preciso mais trabalho para corrigir modelos ruins a partir da saída de imagem
- Talvez seja melhor passar por uma série de etapas para obter lentamente um produto final de qualidade mais alta
- Pode ser que eu esteja deixando passar o caso de uso
Leva 0,5 segundo para gerar um asset 3D na GPU com 7 GB de VRAM
- Achei que seria um modelo voltado apenas para data center, mas 7 GB de VRAM sugerem que ele pode rodar em hardware que muitos artistas 3D já possuem
Estou realmente torcendo para que haja resultados nessa área
- É possível experimentar arrastando uma imagem no demo do HuggingFace
- Não funcionou bem com uma imagem de gato, mas foi bem razoável com uma imagem de iPhone
- Foi impressionante com uma imagem de panqueca e péssimo com uma imagem de foguete
- Voltou a ser impressionante com uma imagem de bola de bilhar
Pretendo imprimir em 3D muitas coisas divertidas com essa tecnologia
Parece que usaram a clássica tática de infomercial de desbotar a imagem de comparação para fazer o resultado parecer melhor
É possível interagir com o modelo na página do projeto
Isso desperta meu entusiasmo por pintura de miniaturas

Stable Fast 3D - gere geração rápida de assets 3D a partir de uma única imagem

Como funciona

Casos de uso

Velocidade e qualidade juntas

Pesquisa e desenvolvimento

Disponibilidade

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários do Hacker News