4 pontos por GN⁺ 2024-02-15 | Ainda não há comentários. | Compartilhar no WhatsApp

Como o MGIE (MLLM-Guided Image Editing) funciona

  • Interpretação de comandos com MLLM: o MGIE usa um MLLM para extrair instruções claras e concisas a partir da entrada do usuário. Por exemplo, para a entrada "deixe o céu mais azul", ele pode gerar a instrução "aumente a saturação da área do céu em 20%".
  • Geração de imaginação visual: o MGIE gera uma imaginação visual, uma representação latente que captura a essência da edição desejada. Isso é usado para orientar manipulações em nível de pixel.
  • Treinamento de ponta a ponta: o MGIE usa uma nova abordagem de treinamento de ponta a ponta que otimiza em conjunto os módulos de extração de instruções, geração de imaginação visual e edição de imagens.

O que o MGIE pode fazer?

  • Edição baseada em instruções claras: o MGIE gera instruções claras e concisas que orientam de forma eficaz o processo de edição.
  • Ajustes no estilo Photoshop: o MGIE pode realizar edições comuns no estilo Photoshop, como recortar, redimensionar, girar, inverter e adicionar filtros, além de permitir edições mais complexas, como mudar o plano de fundo, adicionar ou remover objetos e misturar imagens.
  • Otimização da foto inteira: o MGIE pode otimizar a qualidade da imagem como um todo, incluindo brilho, contraste, nitidez e equilíbrio de cores, além de aplicar efeitos artísticos como esboço, pintura e efeito de cartoon.
  • Edição local: o MGIE pode editar áreas ou objetos específicos dentro da imagem, como rosto, olhos, cabelo, roupas e acessórios, além de modificar atributos dessas áreas ou objetos, como forma, tamanho, cor, textura e estilo.

Como usar o MGIE?

  • Projeto open source: o MGIE é oferecido como um projeto open source no GitHub, onde é possível encontrar código, dados e modelos pré-treinados.
  • Notebook de demonstração e demo web: o projeto oferece um notebook de demonstração mostrando como usar o MGIE em várias tarefas de edição, e também é possível testá-lo online por meio de uma demo web hospedada no Hugging Face Spaces.
  • Design amigável ao usuário: o MGIE foi projetado para ser fácil de usar e flexível para personalização, permitindo que os usuários editem imagens com instruções em linguagem natural, enquanto o MGIE gera a imagem editada junto com as instruções extraídas.

Por que o MGIE é importante?

  • Inovação em edição de imagens baseada em instruções: o MGIE representa um avanço no campo da edição de imagens baseada em instruções, uma tarefa desafiadora e importante para a IA e a criatividade humana.
  • Ferramenta prática: o MGIE pode ajudar a gerar, modificar e otimizar imagens para fins pessoais ou profissionais em áreas como redes sociais, comércio eletrônico, educação, entretenimento e arte.
  • Fortalecimento da capacidade de pesquisa e desenvolvimento em IA da Apple: o MGIE destaca a crescente capacidade da Apple em pesquisa e desenvolvimento de IA e mostra como a IA pode aprimorar tarefas criativas do dia a dia.

Opinião do GN⁺

  • O MGIE é um modelo de IA inovador para editar imagens com base em instruções em linguagem natural e deve ajudar bastante a transformar visualmente as ideias criativas dos usuários.
  • A ferramenta pode simplificar tarefas de edição de imagem tecnicamente complexas e contribuir para melhorar a experiência do usuário.
  • Um exemplo do crescimento da Apple na área de pesquisa e desenvolvimento em IA

Ainda não há comentários.

Ainda não há comentários.