- Uma nova abordagem generativa para preenchimento de imagens desenvolvida pelo Google Research e pela Universidade Cornell
- O RealFill tem como objetivo preencher partes ausentes de uma imagem com o conteúdo que originalmente deveria estar ali, criando imagens mais autênticas
- O modelo é personalizado usando algumas imagens de referência, que não precisam corresponder exatamente à imagem-alvo e podem variar em ponto de vista, condições de iluminação, abertura da câmera ou estilo da imagem
- O RealFill supera amplamente as abordagens existentes em um novo benchmark de preenchimento de imagens que cobre cenários diversos e desafiadores
- O processo envolve o ajuste fino de um modelo de difusão de inpainting pré-treinado para as imagens de referência e de destino, permitindo aprender o conteúdo, a iluminação e o estilo da cena da imagem de entrada
- O modelo ajustado é então usado para preencher as regiões ausentes da imagem-alvo por meio do processo padrão de amostragem por difusão
- O RealFill gera imagens de alta qualidade que permanecem fiéis à cena original e visualmente atraentes, mesmo quando há grandes diferenças entre a referência e o alvo
- As limitações do RealFill incluem um processo de ajuste fino relativamente lento, baseado em gradiente, e dificuldade para reconstruir cenas 3D quando a mudança de ponto de vista entre as imagens de referência e de destino é muito grande
- O RealFill também enfrenta dificuldades em casos desafiadores para modelos básicos pré-treinados, como o Stable Diffusion
1 comentários
Comentários no Hacker News