3 pontos por GN⁺ 2024-08-02 | 1 comentários | Compartilhar no WhatsApp
  • Gera assets 3D de alta qualidade a partir de uma única imagem em apenas 0,5 segundo
  • Construído com base no TripoSR, com grandes melhorias de arquitetura e recursos aprimorados
  • Pode ser aplicado não só por desenvolvedores de jogos e realidade virtual, mas também por profissionais de varejo, arquitetura, design e outras áreas intensivas em gráficos
  • O modelo está disponível no Hugging Face e foi lançado sob a Stability AI Community License
  • É possível acessar facilmente o modelo pela Stability AI API e pelo chatbot Stable Assistant, além de compartilhar criações 3D em um visualizador 3D e testá-las em realidade aumentada
  • Pode ser testado com uma versão gratuita

Como funciona

  • O usuário começa enviando uma única imagem do objeto
  • O Stable Fast 3D gera rapidamente um asset 3D completo, incluindo malha com UV unwrapped, parâmetros de material e cores de albedo com iluminação reduzida
  • Opcionalmente, é possível realizar reconstrução em quads ou triângulos, adicionando apenas 100–200 ms ao tempo de processamento

Casos de uso

  • Aproveitar o tempo de inferência rápido em pré-produção, quando a experimentação é essencial
  • Assets estáticos para jogos (objetos de fundo, itens diversos, móveis)
  • Modelos 3D para e-commerce
  • Geração rápida de modelos para AR/VR

Velocidade e qualidade juntas

  • Desempenho superior em várias áreas-chave em comparação com concorrentes
  • Velocidade rápida de 0,5 segundo por asset 3D gerado em uma GPU com 7 GB de VRAM
  • Malhas UV unwrapped e parâmetros de material de alta qualidade
  • Menor interferência de iluminação nas texturas
  • Possibilidade de gerar parâmetros adicionais de material e mapas normais

Pesquisa e desenvolvimento

  • Baseado no TripoSR, mas com modelo totalmente retreinado e mudanças arquiteturais importantes
  • As melhorias incluem geração explícita de malha e novas técnicas para geração rápida de malha texturizada
  • O relatório técnico destaca como alcançar alta velocidade de inferência com iluminação baked reduzida e parâmetros de material

Disponibilidade

  • O código do modelo Stable Fast 3D está disponível no Github e no Hugging Face
  • Sob a Stability AI Community License, é permitido o uso não comercial e o uso comercial para empresas com receita anual de até $1M
  • O modelo pode ser acessado via API e Stable Assistant

Opinião do GN⁺

  • Essa tecnologia de geração de modelos 3D é interessante porque pode ser aplicada em várias áreas, como jogos, realidade virtual/aumentada, design e arquitetura. Em especial, a geração rápida de assets 3D de alta qualidade a partir de uma única imagem pode ajudar a aumentar a produtividade.
  • No entanto, à medida que esses modelos baseados em IA se popularizam, eles podem impactar os empregos de profissionais especializados, como designers gráficos e modeladores, já que assets 3D antes produzidos manualmente podem ser automatizados. Talvez a IA não substitua completamente as pessoas, mas uma redução parcial de funções parece inevitável.
  • Também é preciso considerar a questão dos direitos autorais dos modelos 3D gerados. Deve haver compensação ou crédito adequado para as imagens usadas no treinamento. Parece necessário estabelecer regulamentações e diretrizes legais para criações geradas por IA.
  • Tecnologias semelhantes incluem o Nvidia Instant Nerf e o RealityScan, da Epic Games. Elas oferecem a função de gerar modelos 3D a partir de fotos ou escaneamentos. A alta compatibilidade com engines de jogos é uma vantagem. Ainda assim, parece que elas ainda não atingem a mesma velocidade do Stable Fast 3D para produzir resultados de alta qualidade a partir de uma única imagem.
  • Em resumo, o Stable Fast 3D parece capaz de contribuir para o aumento da produtividade na área de gráficos 3D, como jogos e XR, ao combinar velocidade e qualidade. Ainda assim, será necessário avançar em um processo de consenso social sobre questões éticas e legais.

1 comentários

 
GN⁺ 2024-08-02
Comentários do Hacker News
  • Apesar de toda a expectativa em torno dos LLMs, a geração de imagens e de assets gráficos provavelmente tem mais chance de ser a vencedora de longo prazo da IA atual

    • As "alucinações" são um recurso, não um bug
    • É fácil ver saídas irreais e enviesadas sem testes estatísticos complexos
    • A intuição humana é útil para avaliação e, ao contrário dos modelos de geração de texto, não é superestimada
    • Métodos com perdas ou ruído também podem ser úteis para vários trabalhos criativos
    • Não é necessário perfeição, e características distorcidas podem ser facilmente vistas e melhoradas
    • Não é necessário consistência, mas quando ela surge pode oferecer grande valor para aplicações como vídeo
    • Técnicas como LoRA permitem até que usuários sem muita experiência treinem facilmente modelos de personagens, estilos ou conceitos específicos
    • Os modelos de geração de imagem/visual melhoraram muito no último ano, e o ritmo de melhoria não desacelerou em relação aos modelos de texto
    • O futuro não será uma substituição total de fotógrafos, cineastas etc., mas sim uma geração de ferramentas poderosas baseadas em IA
    • Ferramentas que permitem adicionar ou remover conceitos de uma imagem com alguns prompts de texto são extremamente úteis
    • Assim como o Photoshop nos anos 90, está surgindo uma nova geração de usuários avançados
  • Na terceira imagem testada, todas as IAs 3D pareceram renderizações 2D de um modelo 3D

    • Foi testado com uma imagem em cel shading, e a saída do modelo ficou muito plana e com topologia ruim
    • Sem sombras corretas, parece que ele não consegue recalcular os vetores normais e, por isso, não entende a estrutura
    • Seria bom especificar quais conjuntos de entrada devem gerar resultados adequados
  • Ainda não está perfeito, mas é bem legal

    • Pode ser usado como decoração de baixo esforço para adicionar complexidade à cena principal, não como asset principal
    • Pode ser usado em situações em que um impostor 2D em billboard não serviria
    • É possível gerar uma imagem com Midjourney, Bing ou Dalle3, arrastar e soltar, e obter uma apresentação 3D surpreendentemente boa
    • Pode ser usado como decoração em cenas 3D nas quais a câmera não vê a parte de trás
  • Mal posso esperar para essa tecnologia melhorar

    • Os resultados dos testes não foram úteis
    • É preciso mais trabalho para corrigir modelos ruins a partir da saída de imagem
    • Talvez seja melhor passar por uma série de etapas para obter lentamente um produto final de qualidade mais alta
    • Pode ser que eu esteja deixando passar o caso de uso
  • Leva 0,5 segundo para gerar um asset 3D na GPU com 7 GB de VRAM

    • Achei que seria um modelo voltado apenas para data center, mas 7 GB de VRAM sugerem que ele pode rodar em hardware que muitos artistas 3D já possuem
  • Estou realmente torcendo para que haja resultados nessa área

    • É possível experimentar arrastando uma imagem no demo do HuggingFace
    • Não funcionou bem com uma imagem de gato, mas foi bem razoável com uma imagem de iPhone
    • Foi impressionante com uma imagem de panqueca e péssimo com uma imagem de foguete
    • Voltou a ser impressionante com uma imagem de bola de bilhar
  • Pretendo imprimir em 3D muitas coisas divertidas com essa tecnologia

  • Parece que usaram a clássica tática de infomercial de desbotar a imagem de comparação para fazer o resultado parecer melhor

  • É possível interagir com o modelo na página do projeto

  • Isso desperta meu entusiasmo por pintura de miniaturas