O que os modelos generativos sabem? Eles realmente sabem?

(intrinsic-lora.github.io)

1 pontos por GN⁺ 2024-02-25 | 1 comentários | Compartilhar no WhatsApp

Modelos GAN, autoregressivos e de difusão, que tornam cenas reais plausíveis, podem conter implicitamente propriedades intrínsecas da cena como profundidade, normais, albedo e sombreamento
A abordagem proposta usa LoRA, menos presa à arquitetura do modelo, para aproveitar diretamente decodificadores existentes de geração de imagens e restaurar representações intrínsecas
Em VQGAN e Stable Diffusion, uma LoRA leve é acoplada às attention layers; no StyleGAN, à affine layer, obtendo imagens intrínsecas sem um decoding head específico para a tarefa
No Stable Diffusion, com rank 2, apenas 0,04% dos pesos totais do modelo são adicionados como parâmetros treináveis, e é possível gerar imagens intrínsecas com apenas 250 imagens rotuladas
Em experimentos de controle, quanto maior a qualidade do modelo generativo, maior tendia a ser a precisão das propriedades intrínsecas restauradas, embora a possibilidade de extração varie conforme o modelo e o domínio

Pergunta de pesquisa e abordagem com LoRA

O ponto de partida é a pergunta: se um modelo generativo reproduz bem cenas reais, sua representação interna também pode conter propriedades intrínsecas da cena (scene intrinsic)
O estudo busca verificar quatro pontos
- Que tipo de conhecimento intrínseco modelos GAN, autoregressivos e de difusão codificam
- Se é possível criar um framework geral para restaurar representações intrínsecas, independentemente da arquitetura ou do tipo de modelo
- Quão pequenos podem ser o número de parâmetros treináveis e a quantidade de dados rotulados necessários
- Se existe uma ligação direta entre a qualidade do modelo generativo e a precisão das propriedades intrínsecas restauradas
O centro do método é o Low-Rank Adaptation (LoRA)
- Em VQGAN e Stable Diffusion, o LoRA é aplicado às attention layers
- Em StyleGAN, o LoRA é aplicado à affine layer
- Sem adicionar decoding heads ou layers específicos para a tarefa, usa-se o mesmo decoder head empregado na geração de imagens
Materiais relacionados

Resultados de restauração e diferenças entre modelos

Com um LoRA pequeno, é possível restaurar depth, normals, albedo, shading em vários modelos generativos
No Stable Diffusion, com LoRA rank 2, os parâmetros treináveis caem para apenas 0,04% dos pesos totais do modelo
Mesmo com apenas 250 imagens rotuladas, é possível gerar imagens intrínsecas por meio do módulo LoRA
Em experimentos de controle, foi confirmada uma correlação positiva entre a qualidade do modelo e a precisão das propriedades intrínsecas restauradas
Os resultados de extração intrínseca variam conforme o modelo e o domínio
- VQGAN / Autoregressive / FFHQ: normal e depth com qualidade intermediária; albedo e shading com alta qualidade
- StyleGAN-v2 / GAN / FFHQ: normal, albedo e shading com alta qualidade; depth com qualidade intermediária
- StyleGAN-v2 / GAN / LSUN Bed: normal, depth, albedo e shading todos com alta qualidade
- StyleGAN-XL / GAN / FFHQ: normal, albedo e shading com alta qualidade; depth com qualidade intermediária
- StyleGAN-XL / GAN / ImageNet: normal, depth, albedo e shading todos impossíveis de extrair
- Stable Diffusion-UNet / Diffusion / Open: normal, depth, albedo e shading todos com alta qualidade
- Stable Diffusion / Diffusion / Open: normal, depth, albedo e shading todos com alta qualidade
Os mapas intrínsecos obtidos por uma abordagem estendida do Stable Diffusion 2.1 são comparados com pseudo ground truth, nos itens surface normals, depth, albedo, shading

1 comentários

GN⁺ 2024-02-25

Comentários do Hacker News

Um dos motivos pelos quais havia tanta expectativa em torno do Sora é que, ao ver alguns vídeos, parecia que havia uma simulação do mundo físico rodando internamente, e que o vídeo era como uma captura daquela cena 3D feita por uma câmera.
Havia a intuição de que muito mais coisa estava acontecendo por trás do que simplesmente juntar pedaços de outros vídeos, e este artigo parece ser uma evidência disso.
Mesmo em geradores de imagens estáticas, fica evidente que o modelo, na prática, aprende a renderizar uma cena 3D e a tirar uma foto dela. O surpreendente é que não se tentou criar um motor 3D; apenas se colocou um monte de imagens em álgebra linear e se otimizou, e acabou surgindo um simulador de mundo.
- Humanos vivem em um mundo 3D, e os dados de aprendizado também são um fluxo visual binocular contínuo, vendo a mesma cena de vários ângulos. Já o Sora aprendeu sobre o mundo assistindo à TV; então talvez precise jogar mais videogame para aprender uma representação implícita de cenas 3D e renderização.
- Ainda me surpreende que as pessoas achem que, na prática, ele só junta pedaços de vídeo.
- A frase “não tentamos criar um motor 3D; jogamos imagens em álgebra linear e otimizamos, e saiu um simulador de mundo” soa como algo que a evolução antropomorfizada diria sobre a mente.
- Mesmo nos vídeos escolhidos pelo fabricante, havia uma cena em que surgia uma quinta perna em um gato e ela logo desaparecia; fico me perguntando como esse tipo de fenômeno se encaixa nessa narrativa otimista.
- Redes neurais não são álgebra linear. Considerando que hoje a maioria usa ativações ReLU, o núcleo de uma rede neural é uma estrutura semilinear, e essa semilinearidade é o que lhe dá força.
O nome vem do game show fictício de Bojack Horseman, Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!
https://bojackhorseman.fandom.com/wiki/Hollywoo_Stars_and_Ce...!
- Eu adoro esse programa e até tenho um adesivo dele no notebook. Se você não assistiu a Bojack Horseman, é uma obra engraçada, mas também sincera, com uma sensação existencial bem forte; se for do seu gosto, vale muito a pena ver.
  Como pacote de animação bem-acabado, acho muito melhor que Futurama. Tem muita profundidade com a qual dá para se identificar e acerta em cheio, mas se mantém leve o suficiente para você terminar se sentindo bem.
  Agora que acabei trabalhando na área de filmtech, o adesivo Hollywoo ficou ainda mais apropriado.
- Dei upvote neste texto só pelo título.
- Eu cito esse título específico de game show com bastante frequência, mas é uma pena que pouca gente entenda, então acabo só parecendo uma pessoa estranha.
- Também é engraçado como, dentro da série, eles ficam chamando de HSaCWDTKDTKTLFO. Ler uma sigla enorme letra por letra como se fosse uma sigla curta talvez seja minha piada recorrente favorita do programa.
- Sinto que encontrei minha turma. Já vi essa série umas 6 vezes.
Isso me lembrou de quando tentei extrair o G-buffer do projeto de teste do Unity High Definition Rendering Pipeline: https://www.youtube.com/watch?v=Fwtc694qNUM
Dito isso, não tenho certeza se este artigo realmente prova alguma coisa. Aqui eles estão treinando um modelo UNet LoRA enorme, e fica ambíguo se estão “extraindo” algo de um modelo existente ou criando um novo modelo que produz canais como os que sairiam de um pipeline de renderização diferida.
A renderização diferida, que combina normais, albedo e profundidade, é apenas uma entre várias técnicas para criar cenas 3D, e nem em videogames ela era usada antes do jogo do Shrek para Xbox do início dos anos 2000 (https://sites.google.com/site/richgel99/the-early-history-of...)
O que seria realmente incrível seria um modelo LoRA capaz de extrair as matrizes de rotação e translação da “câmera” a partir de um modelo gerador de imagens. Isso seria uma evidência muito mais forte e, ao mesmo tempo, bastante útil.
- Nos materiais suplementares, há um experimento em que eles treinam LoRA com uma UNet inicializada aleatoriamente. Nesse caso, ao contrário do uso da UNet pré-treinada do Stable Diffusion, quase não conseguem extrair normais de superfície, o que deixa bem claro que os recursos existentes dentro do modelo são importantes para o desempenho.
- Não sou especialista, mas acho que a parte que diz que “os parâmetros recém-treinados são menos de 0,6% do total de parâmetros do modelo gerador” talvez responda a essa dúvida.
  0,6% parece um número pequeno, mas fico curioso se é isso mesmo que deveria ser medido. O modelo não precisa necessariamente ter codificado exatamente a mesma representação que estamos extraindo, mas, se ele codificou algo que, do ponto de vista do tamanho do modelo, pode ser mapeado de forma barata e estável para normais, albedo e profundidade, isso por si só parece muito significativo.
  Não importa quais vetores de base são usados; basta saber como mapear para a minha representação.
Dei uma olhada no artigo, mas achei muitas partes difíceis. Como alguém que não está familiarizado com IA de geração de imagens, fiquei curioso sobre o que exatamente significa a frase que parece central: “I-LoRA modulates key feature maps to extract intrinsic scene properties such as normals, depth, albedo, and shading, using the models' existing decoders without additional layers, revealing their deep understanding of scene intrinsics”.
Quero entender o que significa “modular mapas de características-chave para extrair propriedades intrínsecas da cena” e como eles geraram imagens dessas propriedades da cena sem camadas adicionais de decodificação.
- Imagine uma rede neural com 1 bilhão de parâmetros; você adiciona a ela algo como 5 milhões de parâmetros espalhados por vários pontos e, usando o método LoRA, continua treinando apenas esses novos parâmetros, sem mexer na rede base. Com isso, ela se torna uma rede modulada que prevê propriedades da cena.
  O interessante é que a quantidade de parâmetros adicionados é muito pequena, o que sugere que a rede original já estava bem perto desse ponto.
Não sei por que Toyota ou Adobe financiam pesquisas com esse tipo de nome, mas gostei muito. Seria bom ver um pouco de brincadeira voltando à ciência
Mais concretamente, quando a descrição diz que “uma abordagem independente de modelo, otimizada com um pequeno número de imagens rotuladas, se adapta a diversas arquiteturas generativas, como modelos de Diffusion, GANs e modelos Autoregressive”, fico me perguntando se isso é puramente uma ferramenta visual/espacial
Os exemplos são visuais só por acaso, ou não há como estender isso a modelos de texto? É a primeira vez que vejo uma abordagem de interpretabilidade como essa, e achei muito impressionante
- Também há pesquisas sobre edição de informações factuais em modelos de linguagem. https://rome.baulab.info/
- Você realmente não entende por que Toyota ou Adobe financiariam pesquisa em visão computacional?
- É a referência a Bojack Horseman de que não sabíamos que precisávamos
Bastante surpreendente. Não é só que esses modelos façam mágica em hiperplanos de bilhões de dimensões impossíveis de decifrar; eles de fato parecem aprender representações interpretáveis por humanos
- Como um engenheiro veterano de gráficos 3D, o fato de haver albedo lá dentro é ao mesmo tempo previsível e realmente impressionante
  Os componentes centrais da renderização baseada em física são posição, normais de superfície, luz incidente e pelo menos uma das propriedades de material da superfície, como albedo e refletividade/rugosidade. A posição pode ser derivada do XY da imagem e da profundidade
  É bastante previsível que uma IA modele profundidade, e normais de superfície podem ser vistas como uma convolução local da profundidade. Mas modelar o albedo separadamente da luz incidente é excelente. Fico curioso se a refletividade também está escondida em algum lugar
- Mesmo havendo muitas evidências de que modelos generativos têm um modelo interno de mundo bastante complexo, é surpreendente que ainda haja gente insistindo que eles são apenas “papagaios estocásticos” e que “não entendem nada de verdade”
Isso é uma boa notícia para VR, ou computação espacial. Se o modelo entende o mundo físico tanto quanto o artigo mostra, gerar duas projeções a partir de uma cena não parece uma exigência tão difícil. Estou realmente animado com o que vem pela frente
Se isso consegue prever albedo e iluminação a partir de imagens reais, espero que alguém crie cenas de Gaussian splatting que possam ser reiluminadas. Iluminação dinâmica ampliaria muito a utilidade de scans 3D feitos a partir de fotos, mas ainda não vi nada nessa área que eu chamaria de “bom”
- Dá mesmo para usar imagens reais com segurança? Se for possível, acho que a aplicação mais útil seria extrair mapas de profundidade de imagens reais
Não quero ser cético, mas fico me perguntando como sabemos que as empresas de geração de imagens não reforçaram seus datasets com coisas como mapas de normais
Entendo que este artigo trata de modelos open source verificáveis, mas será que o segredo do molho dos modelos mais avançados não poderia ser algo assim?
- Para isso, seria preciso treinar com pares de imagens de mapas de normais e imagens originais. Pelo que sei, esse não é um método de treinamento comum, e essa capacidade parece aparecer em vários modelos abertos
Seria interessante testar se a capacidade perceptiva dos modelos generativos é melhor que a humana usando ilusões de ótica que enganam humanos. Por exemplo, fico curioso para saber se eles julgariam a profundidade corretamente em uma situação como a ilusão de Ponzo

O que os modelos generativos sabem? Eles realmente sabem?

Pergunta de pesquisa e abordagem com LoRA

Resultados de restauração e diferenças entre modelos

Leituras relacionadas

1 comentários

Comentários do Hacker News