Meta divulga os modelos de IA Emu Video/Edit para síntese e edição de vídeo

(ai.meta.com)

15 pontos por xguru 2023-11-21 | 1 comentários | Compartilhar no WhatsApp

Emu Video: geração de vídeo em alta qualidade a partir de texto com base em um único modelo de Diffusion

O processo é dividido em duas etapas
- Primeiro, gera uma imagem condicionada de acordo com o prompt de texto
- Depois, gera um vídeo condicionado tanto pelo texto quanto pela imagem gerada
Essa abordagem "factorized" ou segmentada permite treinar modelos de geração de vídeo com eficiência
Ao contrário de trabalhos anteriores, que exigiam a sobreposição de vários modelos (por exemplo, o Make-A-Video usava 5 modelos), a implementação é simples e gera vídeos de 4 segundos em 512x512 a 16 quadros por segundo usando apenas dois modelos de difusão
Na prática, 96% dos participantes preferiram o modelo ao Make-A-Video em termos de qualidade, e 85% em fidelidade ao prompt de texto
Além disso, o modelo também superou com ampla margem trabalhos anteriores ao aplicar "animação" a imagens fornecidas pelo usuário com base em prompts de texto

Emu Edit: edição precisa de imagens por meio de tarefas de percepção e geração

Para criar a imagem desejada, é preciso continuar ajustando o prompt, o que levou ao surgimento do prompt engineering
Mas ainda há limitações quando se trata de controle preciso
O Emu Edit simplifica várias tarefas de manipulação de imagem e oferece recursos aprimorados e mais precisão na edição
Ele permite edição em formato livre por meio de comandos que abrangem tarefas como edições locais e globais, remoção e adição de fundo, transformações de cor e geometria, detecção e segmentação
As abordagens atuais muitas vezes fazem alterações excessivas ou apresentam baixo desempenho em várias tarefas de edição
Ao contrário de muitos modelos de IA generativa atuais, o Emu Edit segue as instruções com precisão, preservando os pixels da imagem de entrada que não têm relação com a instrução
- Por exemplo, ao adicionar o texto "Aloha!" a um boné de beisebol, o boné em si não deve ser alterado
Para treinar o modelo, foi desenvolvido um conjunto de dados com 10 milhões de amostras sintéticas, cada uma contendo uma imagem de entrada, uma descrição da tarefa a ser executada e a imagem de saída desejada
- Trata-se do maior conjunto de dados até o momento
Como resultado, o modelo Emu Edit apresenta resultados de edição sem precedentes em termos de fidelidade às instruções e qualidade de imagem
- Tanto nas avaliações qualitativas quanto quantitativas de várias tarefas de edição de imagem, ele estabeleceu novos resultados de ponta e demonstrou desempenho superior às abordagens existentes

1 comentários

xguru 2023-11-21

O Emu Edit me interessa bastante. No DALL·E, quando você dá algum comando de edição, mesmo fixando a seed ele acaba gerando tudo de novo, então é difícil fazer pequenos ajustes; se a edição funcionar desse jeito, acho que vai ficar bem mais prático de usar.

Meta divulga os modelos de IA Emu Video/Edit para síntese e edição de vídeo

Emu Video: geração de vídeo em alta qualidade a partir de texto com base em um único modelo de Diffusion

Emu Edit: edição precisa de imagens por meio de tarefas de percepção e geração

Leituras relacionadas

1 comentários