1 pontos por GN⁺ 2023-12-01 | 1 comentários | Compartilhar no WhatsApp

Geração de ilusões visuais em múltiplos pontos de vista: um estudo com modelos de difusão

  • Daniel Geng, Inbum Park e Andrew Owens, da Universidade de Michigan, apresentaram um novo método para gerar ilusões visuais de múltiplos pontos de vista usando modelos de difusão.
  • O método gera imagens que parecem diferentes ou têm identidades distintas quando a imagem é transformada, com suporte a várias transformações como rotação, espelhamento, inversão de cores, inclinação, rearranjo de quebra-cabeça e permutações aleatórias.
  • O estudo demonstra a eficácia do método não apenas em teoria, mas também por meio de exemplos práticos.

Metodologia

  • O método usado é conceitualmente simples e utiliza modelos de difusão disponíveis no mercado para estimar o ruído em diferentes visualizações ou transformações da imagem.
  • O ruído estimado é alinhado pela aplicação da visualização inversa e depois é feita uma média; essa estimativa média de ruído é então usada para executar a etapa de difusão.

Condições para as visualizações

  • Nem todas as funções de visualização são compatíveis com o método acima, e a função de visualização precisa ser obrigatoriamente invertível.
  • Para que a função de visualização preserve a ponderação entre sinal e ruído, ela precisa ter linearidade, o que pode ser obtido por meio de uma matriz quadrada A que representa uma transformação linear.
  • Como o modelo de difusão assume que o ruído é extraído de forma independente e identicamente distribuída de uma distribuição normal padrão, o ruído transformado também deve seguir essas estatísticas.
  • No caso de transformações lineares, isso equivale à condição de que A seja uma matriz ortogonal.

Transformações ortogonais

  • A maioria das transformações ortogonais não tem significado visual, mas matrizes de permutação são um subconjunto das matrizes ortogonais e podem ser interpretadas como rearranjos de pixels na imagem.
  • A maior parte das ilusões apresentadas neste estudo pode ser interpretada como rearranjos específicos de pixels, como rotação, espelhamento, inclinação, "rotação interna", rearranjo de quebra-cabeça e permutação de patches.
  • A inversão de cores não é uma permutação, mas é uma transformação ortogonal como negação dos valores dos pixels.

Opinião do GN⁺

  • Este estudo contribui para expandir a fronteira entre tecnologia de inteligência artificial e arte ao apresentar um novo método para gerar diversas ilusões visuais por meio de transformações de imagem.
  • Em especial, o método de rearranjar os pixels da imagem para criar vários efeitos visuais é criativo, e espera-se que ele possibilite a criação de novas formas de obras de arte.
  • O que torna este texto interessante é o fato de ele explorar uma abordagem original para criar ilusões visuais aproveitando modelos de difusão existentes, sendo uma pesquisa que também pode trazer nova inspiração para engenheiros de software iniciantes.

1 comentários

 
GN⁺ 2023-12-01
Comentários do Hacker News
  • Um usuário disse que teve uma ideia parecida no início do ano passado e experimentou com uma abordagem de tabuleiro de xadrez. Citou como exemplo uma única imagem de gato feita com desenhos de gato em estilos de 9 pintores famosos. Mencionou que essa técnica não tem relação com a imagem "spiral" do ControlNet que gerou polêmica há alguns meses, e que foi feita com base no DeepFloyd-IF.
  • Outro usuário avaliou que a imagem com inversão de cores homem/mulher é impressionante e disse que consegue rotacionar mentalmente a imagem para ver outra perspectiva, mas acha difícil fazer isso com inversão de cores.
  • Outro usuário disse que gostou muito da imagem invertida homem/mulher e se perguntou quantas permutações poderiam ser geradas em uma única imagem ao expandir essa técnica. Também comentou que não tem entendimento matemático suficiente para saber se aplicar duas transformações ortogonais em sequência ainda resultaria em uma transformação ortogonal.
  • Um usuário avaliou que todos os exemplos apresentados são "mais ou menos", mas mencionou que a imagem pinguim/girafa provavelmente é a melhor. Sentiu que a imagem idoso/vestido não se parecia bem com nenhum dos dois.
  • Há também quem ache que usar redes neurais possa ser exagero para esse trabalho e talvez não seja o melhor substituto para uma compreensão teórica de ilusões de ótica, mas considera que os resultados são inegáveis.
  • Há usuários que gostam dessas imagens e avaliam que é uma ótima postagem.
  • Também houve quem sugerisse a ideia de criar imagens que pareçam coisas diferentes sob luz vermelha/azul.
  • Outro usuário opinou que seria realmente legal usar a imagem pato/coelho em um quebra-cabeça deslizante para oferecer duas soluções válidas.
  • Também há quem se pergunte se já existem quebra-cabeças de montar desse tipo que possam ser comprados de fato.