15 pontos por xguru 2023-11-21 | 1 comentários | Compartilhar no WhatsApp

Emu Video: geração de vídeo em alta qualidade a partir de texto com base em um único modelo de Diffusion

  • O processo é dividido em duas etapas
    • Primeiro, gera uma imagem condicionada de acordo com o prompt de texto
    • Depois, gera um vídeo condicionado tanto pelo texto quanto pela imagem gerada
  • Essa abordagem "factorized" ou segmentada permite treinar modelos de geração de vídeo com eficiência
  • Ao contrário de trabalhos anteriores, que exigiam a sobreposição de vários modelos (por exemplo, o Make-A-Video usava 5 modelos), a implementação é simples e gera vídeos de 4 segundos em 512x512 a 16 quadros por segundo usando apenas dois modelos de difusão
  • Na prática, 96% dos participantes preferiram o modelo ao Make-A-Video em termos de qualidade, e 85% em fidelidade ao prompt de texto
  • Além disso, o modelo também superou com ampla margem trabalhos anteriores ao aplicar "animação" a imagens fornecidas pelo usuário com base em prompts de texto

Emu Edit: edição precisa de imagens por meio de tarefas de percepção e geração

  • Para criar a imagem desejada, é preciso continuar ajustando o prompt, o que levou ao surgimento do prompt engineering
  • Mas ainda há limitações quando se trata de controle preciso
  • O Emu Edit simplifica várias tarefas de manipulação de imagem e oferece recursos aprimorados e mais precisão na edição
  • Ele permite edição em formato livre por meio de comandos que abrangem tarefas como edições locais e globais, remoção e adição de fundo, transformações de cor e geometria, detecção e segmentação
  • As abordagens atuais muitas vezes fazem alterações excessivas ou apresentam baixo desempenho em várias tarefas de edição
  • Ao contrário de muitos modelos de IA generativa atuais, o Emu Edit segue as instruções com precisão, preservando os pixels da imagem de entrada que não têm relação com a instrução
    • Por exemplo, ao adicionar o texto "Aloha!" a um boné de beisebol, o boné em si não deve ser alterado
  • Para treinar o modelo, foi desenvolvido um conjunto de dados com 10 milhões de amostras sintéticas, cada uma contendo uma imagem de entrada, uma descrição da tarefa a ser executada e a imagem de saída desejada
    • Trata-se do maior conjunto de dados até o momento
  • Como resultado, o modelo Emu Edit apresenta resultados de edição sem precedentes em termos de fidelidade às instruções e qualidade de imagem
    • Tanto nas avaliações qualitativas quanto quantitativas de várias tarefas de edição de imagem, ele estabeleceu novos resultados de ponta e demonstrou desempenho superior às abordagens existentes

1 comentários

 
xguru 2023-11-21

O Emu Edit me interessa bastante. No DALL·E, quando você dá algum comando de edição, mesmo fixando a seed ele acaba gerando tudo de novo, então é difícil fazer pequenos ajustes; se a edição funcionar desse jeito, acho que vai ficar bem mais prático de usar.