Apple lança o inovador modelo de IA "MGIE" para edição de imagens baseada em instruções
(venturebeat.com)Como o MGIE (MLLM-Guided Image Editing) funciona
- Interpretação de comandos com MLLM: o MGIE usa um MLLM para extrair instruções claras e concisas a partir da entrada do usuário. Por exemplo, para a entrada "deixe o céu mais azul", ele pode gerar a instrução "aumente a saturação da área do céu em 20%".
- Geração de imaginação visual: o MGIE gera uma imaginação visual, uma representação latente que captura a essência da edição desejada. Isso é usado para orientar manipulações em nível de pixel.
- Treinamento de ponta a ponta: o MGIE usa uma nova abordagem de treinamento de ponta a ponta que otimiza em conjunto os módulos de extração de instruções, geração de imaginação visual e edição de imagens.
O que o MGIE pode fazer?
- Edição baseada em instruções claras: o MGIE gera instruções claras e concisas que orientam de forma eficaz o processo de edição.
- Ajustes no estilo Photoshop: o MGIE pode realizar edições comuns no estilo Photoshop, como recortar, redimensionar, girar, inverter e adicionar filtros, além de permitir edições mais complexas, como mudar o plano de fundo, adicionar ou remover objetos e misturar imagens.
- Otimização da foto inteira: o MGIE pode otimizar a qualidade da imagem como um todo, incluindo brilho, contraste, nitidez e equilíbrio de cores, além de aplicar efeitos artísticos como esboço, pintura e efeito de cartoon.
- Edição local: o MGIE pode editar áreas ou objetos específicos dentro da imagem, como rosto, olhos, cabelo, roupas e acessórios, além de modificar atributos dessas áreas ou objetos, como forma, tamanho, cor, textura e estilo.
Como usar o MGIE?
- Projeto open source: o MGIE é oferecido como um projeto open source no GitHub, onde é possível encontrar código, dados e modelos pré-treinados.
- Notebook de demonstração e demo web: o projeto oferece um notebook de demonstração mostrando como usar o MGIE em várias tarefas de edição, e também é possível testá-lo online por meio de uma demo web hospedada no Hugging Face Spaces.
- Design amigável ao usuário: o MGIE foi projetado para ser fácil de usar e flexível para personalização, permitindo que os usuários editem imagens com instruções em linguagem natural, enquanto o MGIE gera a imagem editada junto com as instruções extraídas.
Por que o MGIE é importante?
- Inovação em edição de imagens baseada em instruções: o MGIE representa um avanço no campo da edição de imagens baseada em instruções, uma tarefa desafiadora e importante para a IA e a criatividade humana.
- Ferramenta prática: o MGIE pode ajudar a gerar, modificar e otimizar imagens para fins pessoais ou profissionais em áreas como redes sociais, comércio eletrônico, educação, entretenimento e arte.
- Fortalecimento da capacidade de pesquisa e desenvolvimento em IA da Apple: o MGIE destaca a crescente capacidade da Apple em pesquisa e desenvolvimento de IA e mostra como a IA pode aprimorar tarefas criativas do dia a dia.
Opinião do GN⁺
- O MGIE é um modelo de IA inovador para editar imagens com base em instruções em linguagem natural e deve ajudar bastante a transformar visualmente as ideias criativas dos usuários.
- A ferramenta pode simplificar tarefas de edição de imagem tecnicamente complexas e contribuir para melhorar a experiência do usuário.
- Um exemplo do crescimento da Apple na área de pesquisa e desenvolvimento em IA
Ainda não há comentários.