Utilizando modelos de geração de vídeo como simuladores do mundo
- Explora o treinamento de modelos generativos com grandes volumes de dados de vídeo.
- Treina conjuntamente modelos de difusão condicionados por texto em vídeos e imagens com diferentes durações, resoluções e proporções de aspecto.
- Utiliza uma arquitetura Transformer que opera sobre patches espaço-temporais de códigos latentes de vídeo e imagem.
- O maior modelo, Sora, é capaz de gerar vídeos de 1 minuto com alta qualidade.
Convertendo dados visuais em patches
- Inspira-se nos grandes modelos de linguagem que adquiriram capacidades gerais por meio de treinamento com grandes volumes de dados da internet.
- Aplica aos modelos generativos de dados visuais o sucesso do uso de tokens que integram diferentes tipos de texto.
- Converte vídeos em patches para encontrar uma forma de representação eficaz para o treinamento de modelos generativos em diferentes tipos de vídeos e imagens.
Rede de compressão de vídeo
- Treina uma rede para reduzir a dimensionalidade dos dados visuais.
- Recebe vídeo bruto como entrada e produz representações latentes comprimidas temporal e espacialmente.
- O Sora é treinado e gera vídeos nesse espaço latente comprimido.
Patches latentes espaço-temporais
- Extrai sequências de patches espaço-temporais a partir de vídeos de entrada comprimidos.
- Essa representação baseada em patches permite o treinamento com vídeos e imagens de diferentes resoluções, durações e proporções de aspecto.
Escalando a geração de vídeo com Transformers
- O Sora é um modelo de difusão treinado para receber patches com ruído como entrada e prever os patches originais “limpos”.
- Transformers demonstram excelente escalabilidade em diversas áreas, como modelagem de linguagem, visão computacional e geração de imagens.
Diferentes durações, resoluções e proporções de aspecto
- Abordagens existentes de geração de imagem e vídeo ajustam os vídeos para tamanhos padronizados.
- Treinar com os dados em seu tamanho original traz várias vantagens.
Compreensão de linguagem
- O treinamento de sistemas de geração de vídeo a partir de texto requer vídeos acompanhados de grandes quantidades de legendas textuais.
- Treina um modelo de legendagem com alta capacidade descritiva e o utiliza para gerar legendas de texto para todos os vídeos do conjunto de treinamento.
Prompting com imagens e vídeos
- O Sora pode receber prompts não apenas de texto, mas também de outras entradas, como imagens ou vídeos existentes.
- Esse recurso permite realizar várias tarefas de edição de imagem e vídeo.
Surgimento de capacidades de simulação
- Durante o treinamento em larga escala, surgem algumas capacidades de simulação interessantes.
- Essas capacidades permitem que o Sora simule alguns aspectos de pessoas, animais e ambientes do mundo físico.
Discussão
- O Sora apresenta várias limitações como simulador.
- Ele não modela com precisão a física de interações básicas, e outras interações nem sempre resultam em mudanças corretas no estado dos objetos.
GN⁺ Opinião:
- O Sora representa um passo importante para ir além da geração de vídeo e imagem em direção à simulação dos mundos físico e digital.
- Essa tecnologia tem grande potencial para a criação de conteúdo personalizado, pois é capaz de gerar vídeos em diferentes resoluções e proporções de aspecto.
- As capacidades de simulação do Sora oferecem insights interessantes sobre como a inteligência artificial pode compreender e reproduzir o mundo físico.
1 comentários
Comentários do Hacker News
Resumo do primeiro comentário:
Resumo do segundo comentário:
Resumo do terceiro comentário:
Resumo do quarto comentário:
Resumo do quinto comentário:
Resumo do sexto comentário:
Resumo do sétimo comentário:
Resumo do oitavo comentário:
Resumo do nono comentário:
Resumo do décimo comentário: