Emu Video: geração de vídeo em alta qualidade a partir de texto com base em um único modelo de Diffusion
- O processo é dividido em duas etapas
- Primeiro, gera uma imagem condicionada de acordo com o prompt de texto
- Depois, gera um vídeo condicionado tanto pelo texto quanto pela imagem gerada
- Essa abordagem "factorized" ou segmentada permite treinar modelos de geração de vídeo com eficiência
- Ao contrário de trabalhos anteriores, que exigiam a sobreposição de vários modelos (por exemplo, o Make-A-Video usava 5 modelos), a implementação é simples e gera vídeos de 4 segundos em 512x512 a 16 quadros por segundo usando apenas dois modelos de difusão
- Na prática, 96% dos participantes preferiram o modelo ao Make-A-Video em termos de qualidade, e 85% em fidelidade ao prompt de texto
- Além disso, o modelo também superou com ampla margem trabalhos anteriores ao aplicar "animação" a imagens fornecidas pelo usuário com base em prompts de texto
Emu Edit: edição precisa de imagens por meio de tarefas de percepção e geração
- Para criar a imagem desejada, é preciso continuar ajustando o prompt, o que levou ao surgimento do prompt engineering
- Mas ainda há limitações quando se trata de controle preciso
- O Emu Edit simplifica várias tarefas de manipulação de imagem e oferece recursos aprimorados e mais precisão na edição
- Ele permite edição em formato livre por meio de comandos que abrangem tarefas como edições locais e globais, remoção e adição de fundo, transformações de cor e geometria, detecção e segmentação
- As abordagens atuais muitas vezes fazem alterações excessivas ou apresentam baixo desempenho em várias tarefas de edição
- Ao contrário de muitos modelos de IA generativa atuais, o Emu Edit segue as instruções com precisão, preservando os pixels da imagem de entrada que não têm relação com a instrução
- Por exemplo, ao adicionar o texto "Aloha!" a um boné de beisebol, o boné em si não deve ser alterado
- Para treinar o modelo, foi desenvolvido um conjunto de dados com 10 milhões de amostras sintéticas, cada uma contendo uma imagem de entrada, uma descrição da tarefa a ser executada e a imagem de saída desejada
- Trata-se do maior conjunto de dados até o momento
- Como resultado, o modelo Emu Edit apresenta resultados de edição sem precedentes em termos de fidelidade às instruções e qualidade de imagem
- Tanto nas avaliações qualitativas quanto quantitativas de várias tarefas de edição de imagem, ele estabeleceu novos resultados de ponta e demonstrou desempenho superior às abordagens existentes
1 comentários
O Emu Edit me interessa bastante. No DALL·E, quando você dá algum comando de edição, mesmo fixando a seed ele acaba gerando tudo de novo, então é difícil fazer pequenos ajustes; se a edição funcionar desse jeito, acho que vai ficar bem mais prático de usar.