Descobrindo as capacidades ocultas do INTRINSIC LoRA (I-LoRA)
- O INTRINSIC LoRA (I-LoRA) revela capacidades ocultas de modelos generativos como VQGAN, StyleGAN-XL, StyleGAN-v2 e Stable Diffusion.
- Esse método usa o decodificador existente do modelo, sem camadas adicionais, para extrair propriedades intrínsecas da superfície, como normais, profundidade, albedo e sombreamento.
Entendimento latente dos modelos generativos
- Modelos generativos têm a capacidade de sintetizar imagens muito detalhadas e realistas.
- Supõe-se que esses modelos aprendam implicitamente características intrínsecas das imagens, como normais de superfície, profundidade ou sombras.
- Este artigo apresenta evidências convincentes de que modelos generativos realmente produzem internamente mapas intrínsecos de cena de alta qualidade.
Introdução ao INTRINSIC LoRA (I-LoRA)
- O INTRINSIC LoRA (I-LoRA) apresenta uma abordagem universal e plug-and-play que transforma qualquer modelo generativo em um preditor de intrínsecos de cena.
- É possível extrair mapas intrínsecos de cena diretamente da rede geradora original, sem decodificadores adicionais nem ajuste fino da rede inteira.
- O método aproveita a adaptação de baixa classificação (LoRA) de mapas de características centrais usando novos parâmetros que representam menos de 0,6% do total de parâmetros do modelo generativo.
- Ele é otimizado com uma pequena quantidade de imagens rotuladas e pode ser aplicado a diversas arquiteturas generativas, incluindo modelos de Diffusion, GANs e modelos autoregressivos.
Resumo da capacidade de extração de intrínsecos de cena em diferentes modelos generativos
- Resume que é possível extrair características intrínsecas de alta qualidade de vários modelos generativos sem modificar a cabeça do gerador.
- ✓: é possível extrair características intrínsecas com alta qualidade.
- ~: é possível extrair características intrínsecas com qualidade intermediária.
- ✗: não é possível extrair características intrínsecas.
Comparação da geração de mapas intrínsecos com I-LoRA
- A figura mostra uma comparação entre os mapas intrínsecos gerados por este método usando Stable Diffusion 2.1 aprimorado e um ground truth semelhante.
Opinião do GN⁺
- O INTRINSIC LoRA (I-LoRA) é uma abordagem inovadora que expande para uma nova dimensão as capacidades latentes dos modelos generativos existentes.
- Ao mostrar que modelos generativos vão além da simples geração de imagens e entendem características intrínsecas de cenas reais, este estudo oferece novos insights sobre a capacidade de compreensão visual da inteligência artificial.
- Como essa tecnologia tem potencial de aplicação em diversas áreas, como visão computacional, gráficos e AR/VR, trata-se de um avanço muito interessante para pesquisadores e desenvolvedores da área.
1 comentários
Comentário no Hacker News
Uma das reações entusiasmadas ao Sora foi a sensação de que talvez exista uma simulação do mundo físico dentro dele. Isso indica que, nos bastidores, está acontecendo algo além de simplesmente juntar vídeos diferentes.
O nome faz referência ao game show fictício "Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!", que aparece na série "Bojack Horseman".
Isso faz lembrar a experiência de tentar extrair o G-buffer em um projeto de teste do Unity High Definition Rendering Pipeline.
Como alguém que não está familiarizado com IA de geração de imagens, dei uma lida por cima no artigo, mas foi difícil de entender.
Isso é bastante notável. Os modelos estão realmente aprendendo representações que os humanos conseguem entender, em vez de apenas fazer magia em hiperplanos de bilhões de dimensões que não conseguimos decifrar.
Esta pesquisa é uma boa notícia para VR (ou computação espacial). Se o modelo entende bem o mundo físico, gerar duas projeções de uma cena não parece algo difícil. Estou muito animado para ver o que virá a seguir.
Essa tecnologia consegue pegar imagens reais e prever albedo e iluminação. Alguém pede que usem isso para criar uma cena de Gaussian splatting com relighting. Iluminação dinâmica ampliaria muito a utilidade de scans 3D feitos a partir de fotos, e ainda não viu resultados que possam ser considerados realmente bons.
Isso é um GPT para imagens? Pegam um modelo generativo, fazem fine-tuning para subtarefas como normais de superfície por meio de LoRA e concluem que esses modelos aprendem essas representações de forma intrínseca. Os resultados parecem melhores do que os de abordagens supervisionadas.
Não é ceticismo, mas como saber se mapas de normais e afins não já estavam amplamente incluídos nos datasets pelas empresas de geração de imagens?
Por exemplo, como um mapa de normais é obtido? A IA o gera antes de criar a imagem e depois o lê a partir de estados internos?