Lançamento do Stable Video Diffusion

(stability.ai)

14 pontos por GN⁺ 2023-11-22 | 2 comentários | Compartilhar no WhatsApp

Stable Video Diffusion é o primeiro modelo generativo de vídeo baseado no modelo de imagens Stable Diffusion
Disponibilizado como prévia para pesquisa, este mais recente modelo de vídeo com IA generativa representa um passo importante na jornada de criação de diversos tipos de modelos
O código pode ser encontrado no repositório no GitHub, e os pesos necessários para executar o modelo localmente estão disponíveis na página do Hugging Face

Aplicável a diversos usos de vídeo

Os modelos de vídeo podem ser facilmente aplicados a várias tarefas downstream, incluindo síntese multivisual a partir de uma única imagem
Assim como o ecossistema construído em torno do Stable Diffusion, há planos para diversos modelos que serão criados e expandidos sobre essa base
Já é possível entrar na lista de espera para uma nova experiência web com interface de texto para vídeo

Competitivo em desempenho

Stable Video Diffusion foi lançado com dois modelos de imagem para vídeo capazes de gerar 14 e 25 quadros, com taxa de quadros personalizável entre 3 e 30 por segundo
No momento de seu lançamento em forma básica, avaliações externas mostraram que esses modelos superaram modelos fechados líderes em estudos de preferência dos usuários

Somente para pesquisa

Embora haja entusiasmo em atualizar os modelos com os avanços mais recentes e incorporar feedback, enfatiza-se que, neste estágio, eles não se destinam a aplicações do mundo real nem comerciais
Insights e feedback sobre segurança e qualidade são importantes para refinar os modelos para um lançamento final

Expansão contínua dos modelos de IA

Stable Video Diffusion é uma adição importante a uma ampla variedade de modelos de código aberto que abrangem modalidades como imagem, linguagem, áudio, 3D e código
Um portfólio que comprova o compromisso da Stability AI com a amplificação da inteligência humana.

Opinião do GN⁺

O ponto mais importante deste artigo é o lançamento do modelo Stable Video Diffusion, que demonstra o avanço da tecnologia de IA e abre possibilidades de aplicação em várias áreas.
Ao oferecer uma nova ferramenta para pesquisadores e desenvolvedores e possibilitar a criação criativa de vídeos, essa tecnologia desperta expectativa por aplicações interessantes em áreas como publicidade, educação e entretenimento.

2 comentários

xguru 2023-11-22

O momento do Stable Diffusion está chegando aos LLMs

Será que esse momento do Stable Diffusion agora também vai chegar ao vídeo? Com certeza, entre as startups de IA no exterior hoje em dia, parece mesmo que o dinheiro está se concentrando no lado de vídeo.

GN⁺ 2023-11-22

Comentários no Hacker News

Na parte inferior da página de vídeo, aparecem dois pássaros (blue jays), e ao fundo há dois prédios idênticos que parecem a CN Tower. A CN Tower é um marco importante de Toronto, e o time de beisebol de Toronto se chama Blue Jays. Essa torre fica perto do principal estádio esportivo do centro. Entendo mais ou menos como funciona a conversão de texto em imagem, e acho razoável que "blue jays" esteja próximo de "Toronto" ou "CN Tower" no espaço vetorial. O ganho de escala e velocidade de imagem para vídeo é impressionante, mas, vendo como os modelos de geração de imagem são capazes, isso ainda parece limitado pela falta de capacidade de edição ou iteração. Por exemplo, fico me perguntando se existe alguma solução em que o modelo possa fazer iterações com prompts como "mova a bicicleta na foto para a esquerda". Sinto que essa área está evoluindo muito rápido.
O ritmo de avanço em aprendizado de máquina no último ano foi impressionante. Se o ControlNet for aplicado adequadamente a vídeo, fico animado para ver como as pessoas vão usar essa tecnologia. Gerar vídeo do zero é legal, mas a utilidade real disso está na consistência temporal. Normalmente é preciso muito pós-processamento manual para obter um vídeo estável.
Ainda me pergunto como uma licença de modelo "não comercial" pode ser aplicada na prática. Licenças de software regulam a redistribuição do software, mas não regulam os produtos gerados por ele. Por exemplo, uma imagem criada com o GIMP não passa a estar sob a licença GPL.
Essa área se move muito rápido. Surge um novo artigo em um piscar de olhos. A velocidade de aprendizado humano é impressionante. Usar isso em downstream tasks é muito interessante. Fico curioso sobre quão fácil seria integrar este modelo com o animatediff. Também queria saber se é possível fazer benchmarks em dispositivos m3 e se vale a pena usar um m3 pro para rodar esse tipo de inferência e desenvolvimento com difusão.
Um salto fascinante em progresso técnico. Isso me faz pensar na diferença entre ancestral samplers e non-ancestral samplers. Por exemplo, o método Euler é um tanto determinístico e a saída não muda mesmo com o aumento das etapas de amostragem, enquanto o Euler Ancestral adiciona ruído a cada etapa para gerar mais diversidade, mas de forma mais aleatória/probabilística. Para gerar vídeo, imagino que o sampler precise depender fortemente do frame anterior ao mesmo tempo em que injeta algum tipo de sub-prompt. Por exemplo, "rotacione um determinado objeto 5 graus para a esquerda". Gostei da expressão "consistência temporal" usada por outro comentarista.
Faz sentido que remover todos os cortes e fades dos dados de treinamento possa melhorar os resultados. Na seção de contexto do artigo de pesquisa, há menção a "temporal convolution layers"; será que alguém pode explicar o que isso é? Fico curioso sobre que tipo de dado de treinamento é inserido para representar o estado temporal entre as imagens que compõem o vídeo, ou se isso significa outra coisa.
É um avanço muito legal. Alguns meses atrás, experimentei alguns modelos de geração de "vídeo" no Replicate e obtive resultados bem interessantes, mas no fim ficou claro que os vídeos gerados eram feitos usando o frame anterior como prompt. Esta tecnologia realmente parece capaz de criar algo com contexto de nível mais alto. É impressionante ver esse nível de progresso em pouco mais de meio ano.
Peço à Stability.ai que verifique se o conselho administrativo está sendo razoável.
Estou muito animado para experimentar essa tecnologia. Aqui estão alguns experimentos que fiz recentemente.
Assim como acontece com imagens estáticas, é muito interessante observar os defeitos sutis e não intencionais. Por exemplo, o homem com chapéu de cowboy parece quase estar sufocando, e no vídeo do trem os trilhos parecem largos demais enquanto o trem se move como se estivesse patinando no gelo.