1 pontos por GN⁺ 2024-10-05 | 1 comentários | Compartilhar no WhatsApp
  • O Meta Movie Gen é uma pesquisa de modelo de mídia com IA que reúne em um só lugar a geração de vídeo e som, a edição de vídeos existentes e a criação de vídeos a partir de imagens pessoais usando apenas uma entrada de texto simples
  • A geração de vídeo oferece suporte a resultados longos em alta qualidade e a vários formatos de tela, algo que a Meta apresenta como um recurso inédito no setor
  • Em vídeos existentes, é possível aplicar mudanças de estilo, transições e edições precisas por texto, permitindo transformações como trocar uma lanterna por bolhas de sabão flutuando no ar
  • Ao inserir uma foto junto com texto, são criados vídeos personalizados que preservam a identidade e os movimentos da pessoa, com exemplos em laboratório, selfie, faroeste e cena de DJ
  • Também é possível gerar e estender efeitos sonoros, música de fundo e até a trilha sonora completa, ampliando o fluxo de produção de vídeo da geração visual para a composição de áudio

Tarefas que o Movie Gen realiza

  • O Meta Movie Gen é um modelo fundacional de mídia com IA divulgado como a pesquisa mais recente da Meta
  • Ele processa várias tarefas de produção em um único fluxo de entrada de texto
    • geração de vídeo personalizada
    • geração de som
    • edição de vídeos existentes
    • transformação de imagens pessoais em vídeos exclusivos
  • A Meta apresenta o Movie Gen como o novo padrão para conteúdo imersivo com IA

Geração de vídeo baseada em texto

  • O Movie Gen gera vídeos longos em alta qualidade em vários formatos de tela a partir de entrada de texto
  • A Meta afirma que esse recurso é o primeiro do tipo no setor
  • O prompt pode especificar ao mesmo tempo cena, sujeito, movimento, fundo e condições de iluminação
    • uma preguiça usando óculos de sol cor-de-rosa, deitada sobre uma boia de donut e segurando uma bebida tropical
    • um homem com ferramentas de fogo nas duas mãos fazendo movimentos circulares à beira-mar
    • um coala surfando enquanto segura uma prancha de surfe amarela
    • um fantasma de lençol branco dançando diante de um espelho em um sótão empoeirado
    • um macaco de rosto vermelho brincando com um pequeno veleiro em uma fonte termal

Edição de vídeos existentes por texto

  • O Movie Gen oferece edição precisa de vídeos existentes com entrada de texto
  • O escopo inclui mudança de estilo, transições e edições detalhadas
  • Em um dos exemplos, é usada uma transformação que troca uma lanterna por bolhas de sabão flutuando no ar

Vídeos personalizados feitos com imagens pessoais

  • Se o usuário enviar sua própria foto e inserir um texto simples, o Movie Gen gera um vídeo personalizado
  • O resultado é construído de forma a preservar a identidade e os movimentos da pessoa
  • As cenas de exemplo incluem vários ambientes e ações
    • um homem fazendo experimentos em um laboratório com papel de parede de arco-íris
    • uma mulher pintando uma tela em um cavalete em uma sala com painéis de madeira
    • um homem e um cão da raça beagle tirando uma selfie em um pátio no quintal
    • um homem no deserto usando um chapéu de aba larga e um casaco marrom, segurando uma xícara de chá
    • uma cowgirl montada em um cavalo branco em uma antiga cidade do Velho Oeste
    • uma DJ e um guepardo tocando discos em um rooftop de Los Angeles

Geração de som adaptada ao vídeo

  • O Movie Gen pode criar ou estender efeitos sonoros, música de fundo e a trilha sonora completa com entrada de texto
  • O som gerado é projetado para refletir o tom, o ritmo e o estilo do vídeo
  • Os exemplos de entrada especificam ao mesmo tempo sons concretos e a atmosfera musical
    • uma cena com chuva caindo sobre um penhasco e uma pessoa, com música de fundo tocando
    • som de folhas farfalhando e galhos quebrando, com música orquestral
    • uma cena com o motor de um ATV rugindo ao acelerar, acompanhado de música de guitarra
    • o som das rodas de skate girando e o impacto da aterrissagem no concreto
    • uma peça orquestral que desperta admiração
    • após um assobio, uma explosão aguda e um grande som de crackling

Colaboração com criadores e a indústria do entretenimento

  • A Meta colaborou com a produtora premiada Blumhouse por meio do Creative Industry Feedback Program
  • A Blumhouse selecionou cineastas que criariam vídeos antes da estreia pública do Movie Gen
  • Os criadores foram convidados a usar o conjunto de ferramentas de mídia com IA para produzir resultados que considerassem interessantes ou úteis
  • O título do vídeo do diretor Aneesh Chaganty é "i h8 ai"

Exemplos públicos e materiais de referência

  • A Meta afirma que criadores estão transformando a forma de contar histórias com o Movie Gen
  • Os exemplos no Instagram incluem as seguintes contas e prompts
    • @paigepiskin: uma mão segurando uma tarântula com rosto de gato peludo, edição que transforma um cachorro em um bebê dragão cinza
    • @ka5sh: um alienígena de desenho animado verde usando sapatos de palhaço cor-de-rosa, edição que transforma uma pessoa em um alienígena verde com chapéu bucket vermelho
    • @girls: uma garota caminhando por uma alameda de árvores no outono, duas mulheres tomando café diante de uma parede com decorações de Halloween
    • @memezar: uma luta de boxe entre um filhote de hipopótamo e um gorila musculoso
    • @ravivora: adição de névoa densa em primeiro plano, uma mulher subindo à superfície cercada por águas-vivas
  • Como material adicional, é oferecido o artigo de pesquisa do Movie Gen, e a Meta afirma ter estabelecido um novo benchmark do setor em geração de mídia com IA
  • Também são vinculados os posts sobre colaboração com criadores e a indústria do entretenimento e a era da criação de conteúdo com IA

1 comentários

 
GN⁺ 2024-10-05
Opiniões do Hacker News
  • A função de editar vídeo por texto é a mais interessante. Parece algo que poderia ser usado imediatamente em filmes independentes sem orçamento para CGI.
    Dá para filmar primeiro em uma poltrona de lounge, como em uma cena de cinema, e depois transformar para parecer uma sala de cinema.

    • Concordo totalmente. A substituição de fundo que coloca o homem em um cenário de estádio está num nível em que poderia ser usada diretamente como um corte de filme ou série de TV, e o fundo é convincente o bastante para ninguém achar estranho.
      Usada do jeito certo, vai elevar a qualidade de filmes independentes e curtas; o limite será apenas a criatividade.
    • Fico pensando por que usar atores. Atores custam dinheiro e é difícil coordenar agendas. É só fazer tudo com IA.
      Afinal, o modelo provavelmente foi treinado com atores melhores do que os elencos independentes.
  • Isso não é cinema, são clipes. O setor de fotos e vídeos de stock com certeza deve estar preocupado, e vai processar, já que há 100% de chance de esses modelos terem sido treinados com o trabalho deles.
    Se um dia essa tecnologia fizer filmes, imagino que o resultado será a média de tudo o que já foi produzido, como acontece com modelos de texto, imagem e música, e ficará extremamente medíocre.

    • Imagino uma ferramenta de produção de filmes em que você dá instruções como: “coloque o modelo A na cena 32f, adicione uma multidão e depois dê zoom no A. Ele deve estar com uma expressão muito preocupada”.
      Aí você continua ajustando a cena, salva e passa para a próxima. Se a IA consegue dar continuidade à animação, não vejo por que, quando estiver mais avançada, ela não conseguiria reproduzir fielmente um modelo fornecido.
    • Nos dois setores, no fim das contas, será igual a todos os outros lugares: adote ou morra. Quem usar essa nova ferramenta de forma criativa, sem entregar tudo à IA, deve sair como grande vencedor.
    • Já foram criados vários festivais de curtas de IA e videoclipes de IA. Só que a qualidade é irregular, e as melhores obras, no fim, eram as que tinham competências básicas de produção, como boa edição e uma intenção de direção forte.
      Não sei se já saiu algum longa ou se há algum em produção.
    • O problema é que essas empresas de vídeos de stock precisam enfrentar algumas das empresas mais ricas da história. Ação jurídica exige uma quantidade enorme de dinheiro e tempo.
      Não gosto de dizer isso, mas, do jeito que está, se a IA continuar crescendo como agora, é bem provável que as empresas de tecnologia se infiltrem em todos os lugares e se tornem poderosíssimas.
  • Não entendo por que tantos sites que são, na prática, HTML estático ainda assim fazem o celular engasgar.
    Os vídeos parecem legais, mas não dá para ler o artigo relacionado com prazer se o celular trava a cada 2 segundos.

    • Também vejo umas travadas estranhas no Pixel 6a com o navegador Chromium. Como estou no celular, não consigo verificar o código-fonte, mas não tem como isso ser apenas HTML estático.
      Quando rolo a página, partes do texto somem e reaparecem de repente; não é animação baseada em rolagem, é quase aleatório. Dá a impressão de que alguma coisa está bloqueando o loop de renderização do navegador, que não consegue acompanhar o desenho real do texto. Seria um bug absurdo em uma página tão simples, mas, se usaram React aqui, hoje em dia eu acredito em qualquer coisa.
    • Aqui não engasga tanto, mas definitivamente há mudança de layout quando imagens ou elementos de vídeo são carregados.
    • Se desativar o JavaScript, fica de fato bem usável e rápido.
    • Talvez as empresas que fazem esse tipo de coisa não tenham muita competência em desenvolvimento web.
    • Fiquei curioso para saber qual navegador é.
  • Os humanos dependem demais de entrada visual e entretenimento visual. Só que esses conteúdos visuais estão parecendo cada vez mais sem sentido, todos como conteúdo lixo tipo fast-food.
    Não parece que ficar melhor ou ter valor real venha do fato de uma criança em idade pré-escolar poder criar, em poucos segundos, qualquer coisa que consiga imaginar. Talvez esse seja justamente o valor dessa tecnologia. Pode chegar uma era em que poderemos esquecer completamente coisas como filmes, em que se imaginam histórias visualmente. Porque ninguém mais vai se importar.

    • Essas coisas também são visuais tipo junk food. É difícil descrevê-las além de dizer que parecem uma mistura de Fisher-Price com cogumelos alucinógenos fracos.
    • Sim. Também nunca entendi o apelo da fotografia. É fácil demais: não precisa passar horas desenhando para tentar criar algo original, é só comprar uma câmera e apertar um botão.
      E as pessoas ainda pagam por isso, não consigo entender.
  • Há anos venho dizendo que um tsunami de conteúdo gerado vai engolir as vozes humanas reais online. Como resultado, a internet pode se tornar praticamente inútil para qualquer coisa que não seja entretenimento.

    • Interessante, e uma parte disso já parece estar acontecendo. Eu achava que a maioria das pessoas aqui e em outros fóruns era humana, mas não tenho mais essa sensação.
      Até em chats de grupo vejo um amigo usando respostas de IA, enquanto outros membros não percebem e respondem seriamente. Isso me dá nojo e me faz querer evitar instintivamente conteúdo lixo de IA. Agora não sei qual é o próximo passo, nem para onde ir. Não tenho ideia se fóruns “humanos” vão ser empurrados para cantos mais profundos da internet ou se todo mundo vai passar a preferir encontros offline.
    • Talvez isso seja uma coisa boa. A internet nunca alcançou seu potencial de ser um tecido que conecta a humanidade. Na maior parte, é só marketing e spam.
      Se a internet morrer e todo mundo voltar para comunidades menores, não acho que isso seja tão ruim. Para começo de conversa, nós nem evoluímos para comunicação em escala global.
    • Não sei por que eu deveria me importar.
      Você já viu o que a maioria dos humanos fala? Se a IA disser coisas mais inteligentes, eu sou a favor.
    • Seria bom poder ir para comunidades de usuários humanos verificados. Com escopo menor do que redes sociais.
    • A internet antiga era como um esconderijo onde nerds se escondiam, brincavam e se divertiam. Depois que o smartphone foi inventado, talvez até antes disso, ela se estragou, como um “Eternal September”.
      Hoje em dia, prefiro passar tempo offline. Será que ainda existe algum outro esconderijo baseado na internet, sem anúncios, caça-cliques e conteúdo lixo de IA?
  • Não encontro uma expressão melhor para todos os vídeos, mas há um brilho típico de IA generativa que dá para reconhecer imediatamente. Outra parte que mais entrega são as pequenas mudanças nas bordas, que criam artefatos borrados

    • Acho que isso não basta. Esses vídeos são de alta qualidade. Quando forem postados em redes sociais, a compressão vai fazer a maioria dos defeitos desaparecer
      Também já foi demonstrado que, quando as pessoas não esperam conteúdo de IA, percebem muito menos que é IA. Se eu estivesse desatento, acho que teria acreditado que a maioria desses vídeos era 100% real
    • Esse brilho parece um filtro usado por pessoas que copiam vídeos da TV ou do cinema e os publicam em lugares como o Facebook Reels
      Há muitos Reels com esse padrão de adicionar ruído suficiente ao conteúdo roubado para escapar de filtros de detecção de conteúdo. Nos comentários, há links para sites fraudulentos, marcados como “a página deste conteúdo no IMDB”
    • O movimento parecia estranho. A menininha na praia se move como uma adulta, o pintor parece mesmo um fantoche, e tudo dá a sensação de estar em câmera lenta
    • Pelo menos os humanos nesses vídeos parecem todos ter o número certo de dedos, então é uma evolução. O Moo Deng, por algum motivo, parece já ter naturalmente um brilho próprio, então não dá para culpar isso
      Mesmo assim, o problema das bordas continua grande
    • Fico curioso sobre o quanto RLHF ou outros ajustes de modelo baseados em humanos contribuíram para essa supersaturação e contraste exagerado
      O consumidor médio parece preferir essas características ao comparar imagens ou vídeos, e as usa como heurística para julgar qualidade. Também houve comparações entre modelos antigos de geração texto-para-imagem e as gerações mais recentes, defendendo que os modelos antigos, menos retocados, não tendiam tanto quanto os atuais a produzir saídas kitsch e exageradas
  • Talvez eu esteja vendo isso de forma muito fechada, mas quem exatamente quis algo assim, e alguém pensou nas consequências de uma geração de lixo por IA facilmente acessível?
    Já é quase impossível encontrar conteúdo de qualidade na internet se você não souber onde procurar

    • Isso vai piorar daqui para frente, e o valor de agregadores e gatekeepers vai crescer enormemente
    • A resposta para “quem quis isso?” é: você já ouviu a piada “porque dá para fazer”?
    • Eu quis, e estou bem feliz que isso esteja acontecendo. Reclinando-me na cadeira e fechando os olhos, uma nova era da computação está se abrindo, em que visões da minha cabeça podem se tornar realidade sem uma equipe de Hollywood
  • Meus dois filhos têm uma inclinação criativa forte, e tenho medo de que, por causa da IA, eles não consigam ganhar a vida criando. Mas ultimamente também tenho pensado de outro jeito
    Passamos décadas gastando bilhões, talvez trilhões de dólares, para melhorar tecnologias de entretenimento. Quando a IA conseguir criar qualquer entretenimento imaginável, talvez comecemos a achar esse entretenimento entediante. Nesse momento, talvez passemos a considerar a exploração espacial, a expansão do conhecimento em física e química e a luta contra doenças muito mais interessantes. Porque essas coisas são reais. Pelo mesmo ponto de vista, a arte feita por humanos também pode se tornar mais interessante por ser real

    • Ao conversar com pessoas na vida real, quase sempre volto a esse ponto. A maioria das pessoas acha os resultados de IA curiosos, mas não particularmente interessantes em nível artístico
      As pessoas empolgadas com IA aparecem principalmente online e, por falta de expressão melhor, parecem estar realmente muito imersas na internet, sem habilidade, conhecimento ou capacidade para criar arte por conta própria. No instante em que alguém diz “gerado por IA”, o interesse artístico desaparece imediatamente. Não é como usar Photoshop ou ferramentas de arte digital. Apresentar a intervenção humana mínima como uma vantagem, no momento em que aquilo é apresentado como arte, para mim já não se sustenta desde o ponto de partida. Vou observar se a visão utópica dessa tecnologia se realiza, mas já vi várias vezes um otimismo ofegante com novas tecnologias acabar se cristalizando em lixo sem graça, estilo MBA, movido por publicidade, então não sou muito otimista
    • Há também outro ângulo
      Sigo muitas novas comunidades de geração por IA no Twitter, e há muita gente da indústria criativa nelas. Uma pessoa que trabalhava no setor de publicidade compartilhou recentemente a história de uma filmagem para uma marca famosa. Soundstage, atores, som, maquiagem, iluminação etc. ficaram montados durante 3 dias, e cerca de 25 pessoas trabalharam por 3 dias. Mas, incluindo pré-produção e pós-produção, houve por trás cerca de 3 meses de esforço. Pense em edição, correção de cor, edição de som, música etc. Crianças criativas talvez vivam em um mundo em que possam alcançar resultados parecidos por conta própria. Em uma equipe pequena, uma pessoa fica com personagens, outra com áudio, outra com roteiro, e assim por diante. Sem equipamentos alugados de dezenas de milhares de dólares e sem 25 especialistas, será possível concretizar ideias da cabeça com persistência e ferramentas de geração por IA. Acredito sinceramente que essas novas ferramentas vão abrir potenciais além do que imaginamos agora
    • Talvez o fator limitante da capacidade de fazer arte deixe de ser a técnica necessária para produzir filmes, pintar ou tocar instrumentos, e passe a ser a criatividade
    • A tinta não substituiu o carvão, a fotografia não substituiu a pintura, a arte digital não substituiu mídias físicas, e a geração aleatória de fases de jogos não substituiu a arquitetura
      Obras geradas por IA encontrarão seu lugar ao lado de obras geradas por humanos. Talvez até melhorem o mercado de filmes de arte e de grandes atuações, ao destacar a diferença que um pouco de talento humano faz. O que está em risco não é a arte, mas o trabalho braçal. O que muda é a escala dos fracassos produzidos por humanos que empregavam milhões de pessoas passar para fracassos produzidos por IA que empregam apenas dezenas
    • Mesmo sem IA, ganhar a vida com criatividade nunca funcionou para a maioria das pessoas. A expressão criativa existe por si só, e quem consegue viver dela é uma exceção sortuda
  • Isso é realmente impressionante. A consistência espacial e temporal é inacreditável

  • O resultado esperado é este: todos os roteiros de Hollywood agora serão enviados junto com um filme de pré-visualização, surgirá um conversor que transforma quadrinhos em animação, e serão criados anúncios online para muito mais produtos

    • Pré-visualização e storyboards serão enormemente beneficiados por essa tecnologia. No fim, parece que ela também poderá ser usada para B-roll ou material de segunda unidade
      Depois disso, teremos que ver se essa tecnologia estagna ou continua subindo
    • “Filmes” de baixa qualidade feitos por IA e roteiros com marcação de movimentação são um conceito interessante
      Transformar quadrinhos em animação já existe. Anúncios, especialmente anúncios sociais e online, também já estão acontecendo