1 pontos por GN⁺ 2024-02-17 | 1 comentários | Compartilhar no WhatsApp

Utilizando modelos de geração de vídeo como simuladores do mundo

  • Explora o treinamento de modelos generativos com grandes volumes de dados de vídeo.
  • Treina conjuntamente modelos de difusão condicionados por texto em vídeos e imagens com diferentes durações, resoluções e proporções de aspecto.
  • Utiliza uma arquitetura Transformer que opera sobre patches espaço-temporais de códigos latentes de vídeo e imagem.
  • O maior modelo, Sora, é capaz de gerar vídeos de 1 minuto com alta qualidade.

Convertendo dados visuais em patches

  • Inspira-se nos grandes modelos de linguagem que adquiriram capacidades gerais por meio de treinamento com grandes volumes de dados da internet.
  • Aplica aos modelos generativos de dados visuais o sucesso do uso de tokens que integram diferentes tipos de texto.
  • Converte vídeos em patches para encontrar uma forma de representação eficaz para o treinamento de modelos generativos em diferentes tipos de vídeos e imagens.

Rede de compressão de vídeo

  • Treina uma rede para reduzir a dimensionalidade dos dados visuais.
  • Recebe vídeo bruto como entrada e produz representações latentes comprimidas temporal e espacialmente.
  • O Sora é treinado e gera vídeos nesse espaço latente comprimido.

Patches latentes espaço-temporais

  • Extrai sequências de patches espaço-temporais a partir de vídeos de entrada comprimidos.
  • Essa representação baseada em patches permite o treinamento com vídeos e imagens de diferentes resoluções, durações e proporções de aspecto.

Escalando a geração de vídeo com Transformers

  • O Sora é um modelo de difusão treinado para receber patches com ruído como entrada e prever os patches originais “limpos”.
  • Transformers demonstram excelente escalabilidade em diversas áreas, como modelagem de linguagem, visão computacional e geração de imagens.

Diferentes durações, resoluções e proporções de aspecto

  • Abordagens existentes de geração de imagem e vídeo ajustam os vídeos para tamanhos padronizados.
  • Treinar com os dados em seu tamanho original traz várias vantagens.

Compreensão de linguagem

  • O treinamento de sistemas de geração de vídeo a partir de texto requer vídeos acompanhados de grandes quantidades de legendas textuais.
  • Treina um modelo de legendagem com alta capacidade descritiva e o utiliza para gerar legendas de texto para todos os vídeos do conjunto de treinamento.

Prompting com imagens e vídeos

  • O Sora pode receber prompts não apenas de texto, mas também de outras entradas, como imagens ou vídeos existentes.
  • Esse recurso permite realizar várias tarefas de edição de imagem e vídeo.

Surgimento de capacidades de simulação

  • Durante o treinamento em larga escala, surgem algumas capacidades de simulação interessantes.
  • Essas capacidades permitem que o Sora simule alguns aspectos de pessoas, animais e ambientes do mundo físico.

Discussão

  • O Sora apresenta várias limitações como simulador.
  • Ele não modela com precisão a física de interações básicas, e outras interações nem sempre resultam em mudanças corretas no estado dos objetos.

GN⁺ Opinião:

  • O Sora representa um passo importante para ir além da geração de vídeo e imagem em direção à simulação dos mundos físico e digital.
  • Essa tecnologia tem grande potencial para a criação de conteúdo personalizado, pois é capaz de gerar vídeos em diferentes resoluções e proporções de aspecto.
  • As capacidades de simulação do Sora oferecem insights interessantes sobre como a inteligência artificial pode compreender e reproduzir o mundo físico.

1 comentários

 
GN⁺ 2024-02-17
Comentários do Hacker News
  • Resumo do primeiro comentário:

    • Potencial da geração de continuidade em vídeo: essa tecnologia pode criar continuidade em vídeo com leis físicas realistas aplicadas. Há uma discussão sobre as possibilidades caso isso funcione em tempo real.
    • Integração com robôs: pode ser conectada a robôs com feed de câmera em tempo real para construir um modelo do ambiente ao redor em tempo real e prever o futuro.
    • Futuro dos robôs autônomos: dependendo de quão bem as previsões coincidirem com os resultados reais, com correção de erros isso pode chegar perto de uma AGI (inteligência artificial geral).
    • Exemplo de robô doméstico: um exemplo em que um robô de limpeza da sala gera uma imagem da sala após a limpeza, imagina esse processo e executa a limpeza.
  • Resumo do segundo comentário:

    • Possibilidade de reconstrução de cenas 3D: esse modelo pode reconstruir de forma realista cantos ocultos ou detalhes de um espaço 3D.
    • Efeito da redução no número de fotos: mesmo sem centenas ou milhares de fotos, seria possível criar uma cena 3D completa e realista com apenas algumas imagens.
  • Resumo do terceiro comentário:

    • Importância dos casos de falha: menção ao valor de mostrar resultados que não são perfeitos.
    • Limitações da geração de vídeo: exemplos de resultados irreais, como pessoas surfando, vidro que não quebra e pessoas andando de forma estranha.
  • Resumo do quarto comentário:

    • Sucesso do AlphaGo e do AlphaZero: alcançaram desempenho sobre-humano por meio de simuladores perfeitos.
    • Importância de um simulador do mundo real: o Sora é uma tentativa baseada em deep learning para simular o mundo real.
    • Perspectiva de capacidades sobre-humanas: se um simulador suficientemente bom for desenvolvido, isso será possível do ponto de vista de software.
  • Resumo do quinto comentário:

    • Avanço na geração de vídeo: vídeos têm densidade de informação maior do que imagens e são adequados para treinar modelos grandes.
    • Nível de compreensão do modelo: a geração de vídeos de alta qualidade mostra o quanto o modelo entende o mundo real, a interação entre objetos, a composição 3D etc.
  • Resumo do sexto comentário:

    • Avanço na geração de vídeo: ver uma pessoa desenhando em um vídeo totalmente gerado é uma experiência surpreendente.
    • Custo e expectativas: há a expectativa de que essa tecnologia será cara, junto com espanto diante da rapidez do avanço.
  • Resumo do sétimo comentário:

    • Reação aos resultados do modelo: o exemplo do robô não impressiona tanto, mas ele gera muito bem pessoas e pessoas ao fundo.
    • Interação com objetos: surpresa com a capacidade do modelo de gerar pessoas interagindo com objetos.
  • Resumo do oitavo comentário:

    • Consistência 3D: capacidade do modelo de gerar vídeos com consistência 3D mesmo sem conhecimento prévio explícito de 3D.
    • Aprendizado de representações 3D: é possível aprender diretamente representações 3D (por exemplo, NeRF) a partir dos vídeos gerados.
  • Resumo do nono comentário:

    • Impacto na indústria adulta: discussão sobre o impacto que essa tecnologia pode ter na indústria adulta, especialmente para profissionais do sexo.
    • Considerações éticas: possibilidade de gerar conteúdo sem sofrimento humano ao visualizar desejos específicos das pessoas.
  • Resumo do décimo comentário:

    • Treinamento de modelos de previsão de vídeo: assim como modelos de previsão de texto aprendem linguagem e um modelo de mundo, modelos de previsão de vídeo também precisam aprender um modelo de mundo consistente.
    • Evolução do modelo: reflexão sobre quanto mais o modelo ainda precisa evoluir para atingir um nível útil.