Geração de ilusões visuais em múltiplos pontos de vista: um estudo com modelos de difusão
- Daniel Geng, Inbum Park e Andrew Owens, da Universidade de Michigan, apresentaram um novo método para gerar ilusões visuais de múltiplos pontos de vista usando modelos de difusão.
- O método gera imagens que parecem diferentes ou têm identidades distintas quando a imagem é transformada, com suporte a várias transformações como rotação, espelhamento, inversão de cores, inclinação, rearranjo de quebra-cabeça e permutações aleatórias.
- O estudo demonstra a eficácia do método não apenas em teoria, mas também por meio de exemplos práticos.
Metodologia
- O método usado é conceitualmente simples e utiliza modelos de difusão disponíveis no mercado para estimar o ruído em diferentes visualizações ou transformações da imagem.
- O ruído estimado é alinhado pela aplicação da visualização inversa e depois é feita uma média; essa estimativa média de ruído é então usada para executar a etapa de difusão.
Condições para as visualizações
- Nem todas as funções de visualização são compatíveis com o método acima, e a função de visualização precisa ser obrigatoriamente invertível.
- Para que a função de visualização preserve a ponderação entre sinal e ruído, ela precisa ter linearidade, o que pode ser obtido por meio de uma matriz quadrada A que representa uma transformação linear.
- Como o modelo de difusão assume que o ruído é extraído de forma independente e identicamente distribuída de uma distribuição normal padrão, o ruído transformado também deve seguir essas estatísticas.
- No caso de transformações lineares, isso equivale à condição de que A seja uma matriz ortogonal.
Transformações ortogonais
- A maioria das transformações ortogonais não tem significado visual, mas matrizes de permutação são um subconjunto das matrizes ortogonais e podem ser interpretadas como rearranjos de pixels na imagem.
- A maior parte das ilusões apresentadas neste estudo pode ser interpretada como rearranjos específicos de pixels, como rotação, espelhamento, inclinação, "rotação interna", rearranjo de quebra-cabeça e permutação de patches.
- A inversão de cores não é uma permutação, mas é uma transformação ortogonal como negação dos valores dos pixels.
Opinião do GN⁺
- Este estudo contribui para expandir a fronteira entre tecnologia de inteligência artificial e arte ao apresentar um novo método para gerar diversas ilusões visuais por meio de transformações de imagem.
- Em especial, o método de rearranjar os pixels da imagem para criar vários efeitos visuais é criativo, e espera-se que ele possibilite a criação de novas formas de obras de arte.
- O que torna este texto interessante é o fato de ele explorar uma abordagem original para criar ilusões visuais aproveitando modelos de difusão existentes, sendo uma pesquisa que também pode trazer nova inspiração para engenheiros de software iniciantes.
1 comentários
Comentários do Hacker News