- O Meta Movie Gen é uma pesquisa de modelo de mídia com IA que reúne em um só lugar a geração de vídeo e som, a edição de vídeos existentes e a criação de vídeos a partir de imagens pessoais usando apenas uma entrada de texto simples
- A geração de vídeo oferece suporte a resultados longos em alta qualidade e a vários formatos de tela, algo que a Meta apresenta como um recurso inédito no setor
- Em vídeos existentes, é possível aplicar mudanças de estilo, transições e edições precisas por texto, permitindo transformações como trocar uma lanterna por bolhas de sabão flutuando no ar
- Ao inserir uma foto junto com texto, são criados vídeos personalizados que preservam a identidade e os movimentos da pessoa, com exemplos em laboratório, selfie, faroeste e cena de DJ
- Também é possível gerar e estender efeitos sonoros, música de fundo e até a trilha sonora completa, ampliando o fluxo de produção de vídeo da geração visual para a composição de áudio
Tarefas que o Movie Gen realiza
- O Meta Movie Gen é um modelo fundacional de mídia com IA divulgado como a pesquisa mais recente da Meta
- Ele processa várias tarefas de produção em um único fluxo de entrada de texto
- geração de vídeo personalizada
- geração de som
- edição de vídeos existentes
- transformação de imagens pessoais em vídeos exclusivos
- A Meta apresenta o Movie Gen como o novo padrão para conteúdo imersivo com IA
Geração de vídeo baseada em texto
- O Movie Gen gera vídeos longos em alta qualidade em vários formatos de tela a partir de entrada de texto
- A Meta afirma que esse recurso é o primeiro do tipo no setor
- O prompt pode especificar ao mesmo tempo cena, sujeito, movimento, fundo e condições de iluminação
- uma preguiça usando óculos de sol cor-de-rosa, deitada sobre uma boia de donut e segurando uma bebida tropical
- um homem com ferramentas de fogo nas duas mãos fazendo movimentos circulares à beira-mar
- um coala surfando enquanto segura uma prancha de surfe amarela
- um fantasma de lençol branco dançando diante de um espelho em um sótão empoeirado
- um macaco de rosto vermelho brincando com um pequeno veleiro em uma fonte termal
Edição de vídeos existentes por texto
- O Movie Gen oferece edição precisa de vídeos existentes com entrada de texto
- O escopo inclui mudança de estilo, transições e edições detalhadas
- Em um dos exemplos, é usada uma transformação que troca uma lanterna por bolhas de sabão flutuando no ar
Vídeos personalizados feitos com imagens pessoais
- Se o usuário enviar sua própria foto e inserir um texto simples, o Movie Gen gera um vídeo personalizado
- O resultado é construído de forma a preservar a identidade e os movimentos da pessoa
- As cenas de exemplo incluem vários ambientes e ações
- um homem fazendo experimentos em um laboratório com papel de parede de arco-íris
- uma mulher pintando uma tela em um cavalete em uma sala com painéis de madeira
- um homem e um cão da raça beagle tirando uma selfie em um pátio no quintal
- um homem no deserto usando um chapéu de aba larga e um casaco marrom, segurando uma xícara de chá
- uma cowgirl montada em um cavalo branco em uma antiga cidade do Velho Oeste
- uma DJ e um guepardo tocando discos em um rooftop de Los Angeles
Geração de som adaptada ao vídeo
- O Movie Gen pode criar ou estender efeitos sonoros, música de fundo e a trilha sonora completa com entrada de texto
- O som gerado é projetado para refletir o tom, o ritmo e o estilo do vídeo
- Os exemplos de entrada especificam ao mesmo tempo sons concretos e a atmosfera musical
- uma cena com chuva caindo sobre um penhasco e uma pessoa, com música de fundo tocando
- som de folhas farfalhando e galhos quebrando, com música orquestral
- uma cena com o motor de um ATV rugindo ao acelerar, acompanhado de música de guitarra
- o som das rodas de skate girando e o impacto da aterrissagem no concreto
- uma peça orquestral que desperta admiração
- após um assobio, uma explosão aguda e um grande som de crackling
Colaboração com criadores e a indústria do entretenimento
- A Meta colaborou com a produtora premiada Blumhouse por meio do Creative Industry Feedback Program
- A Blumhouse selecionou cineastas que criariam vídeos antes da estreia pública do Movie Gen
- Os criadores foram convidados a usar o conjunto de ferramentas de mídia com IA para produzir resultados que considerassem interessantes ou úteis
- O título do vídeo do diretor Aneesh Chaganty é
"i h8 ai"
Exemplos públicos e materiais de referência
- A Meta afirma que criadores estão transformando a forma de contar histórias com o Movie Gen
- Os exemplos no Instagram incluem as seguintes contas e prompts
- @paigepiskin: uma mão segurando uma tarântula com rosto de gato peludo, edição que transforma um cachorro em um bebê dragão cinza
- @ka5sh: um alienígena de desenho animado verde usando sapatos de palhaço cor-de-rosa, edição que transforma uma pessoa em um alienígena verde com chapéu bucket vermelho
- @girls: uma garota caminhando por uma alameda de árvores no outono, duas mulheres tomando café diante de uma parede com decorações de Halloween
- @memezar: uma luta de boxe entre um filhote de hipopótamo e um gorila musculoso
- @ravivora: adição de névoa densa em primeiro plano, uma mulher subindo à superfície cercada por águas-vivas
- Como material adicional, é oferecido o artigo de pesquisa do Movie Gen, e a Meta afirma ter estabelecido um novo benchmark do setor em geração de mídia com IA
- Também são vinculados os posts sobre colaboração com criadores e a indústria do entretenimento e a era da criação de conteúdo com IA
1 comentários
Opiniões do Hacker News
A função de editar vídeo por texto é a mais interessante. Parece algo que poderia ser usado imediatamente em filmes independentes sem orçamento para CGI.
Dá para filmar primeiro em uma poltrona de lounge, como em uma cena de cinema, e depois transformar para parecer uma sala de cinema.
Usada do jeito certo, vai elevar a qualidade de filmes independentes e curtas; o limite será apenas a criatividade.
Afinal, o modelo provavelmente foi treinado com atores melhores do que os elencos independentes.
Isso não é cinema, são clipes. O setor de fotos e vídeos de stock com certeza deve estar preocupado, e vai processar, já que há 100% de chance de esses modelos terem sido treinados com o trabalho deles.
Se um dia essa tecnologia fizer filmes, imagino que o resultado será a média de tudo o que já foi produzido, como acontece com modelos de texto, imagem e música, e ficará extremamente medíocre.
Aí você continua ajustando a cena, salva e passa para a próxima. Se a IA consegue dar continuidade à animação, não vejo por que, quando estiver mais avançada, ela não conseguiria reproduzir fielmente um modelo fornecido.
Não sei se já saiu algum longa ou se há algum em produção.
Não gosto de dizer isso, mas, do jeito que está, se a IA continuar crescendo como agora, é bem provável que as empresas de tecnologia se infiltrem em todos os lugares e se tornem poderosíssimas.
Não entendo por que tantos sites que são, na prática, HTML estático ainda assim fazem o celular engasgar.
Os vídeos parecem legais, mas não dá para ler o artigo relacionado com prazer se o celular trava a cada 2 segundos.
Quando rolo a página, partes do texto somem e reaparecem de repente; não é animação baseada em rolagem, é quase aleatório. Dá a impressão de que alguma coisa está bloqueando o loop de renderização do navegador, que não consegue acompanhar o desenho real do texto. Seria um bug absurdo em uma página tão simples, mas, se usaram React aqui, hoje em dia eu acredito em qualquer coisa.
Os humanos dependem demais de entrada visual e entretenimento visual. Só que esses conteúdos visuais estão parecendo cada vez mais sem sentido, todos como conteúdo lixo tipo fast-food.
Não parece que ficar melhor ou ter valor real venha do fato de uma criança em idade pré-escolar poder criar, em poucos segundos, qualquer coisa que consiga imaginar. Talvez esse seja justamente o valor dessa tecnologia. Pode chegar uma era em que poderemos esquecer completamente coisas como filmes, em que se imaginam histórias visualmente. Porque ninguém mais vai se importar.
E as pessoas ainda pagam por isso, não consigo entender.
Há anos venho dizendo que um tsunami de conteúdo gerado vai engolir as vozes humanas reais online. Como resultado, a internet pode se tornar praticamente inútil para qualquer coisa que não seja entretenimento.
Até em chats de grupo vejo um amigo usando respostas de IA, enquanto outros membros não percebem e respondem seriamente. Isso me dá nojo e me faz querer evitar instintivamente conteúdo lixo de IA. Agora não sei qual é o próximo passo, nem para onde ir. Não tenho ideia se fóruns “humanos” vão ser empurrados para cantos mais profundos da internet ou se todo mundo vai passar a preferir encontros offline.
Se a internet morrer e todo mundo voltar para comunidades menores, não acho que isso seja tão ruim. Para começo de conversa, nós nem evoluímos para comunicação em escala global.
Você já viu o que a maioria dos humanos fala? Se a IA disser coisas mais inteligentes, eu sou a favor.
Hoje em dia, prefiro passar tempo offline. Será que ainda existe algum outro esconderijo baseado na internet, sem anúncios, caça-cliques e conteúdo lixo de IA?
Não encontro uma expressão melhor para todos os vídeos, mas há um brilho típico de IA generativa que dá para reconhecer imediatamente. Outra parte que mais entrega são as pequenas mudanças nas bordas, que criam artefatos borrados
Também já foi demonstrado que, quando as pessoas não esperam conteúdo de IA, percebem muito menos que é IA. Se eu estivesse desatento, acho que teria acreditado que a maioria desses vídeos era 100% real
Há muitos Reels com esse padrão de adicionar ruído suficiente ao conteúdo roubado para escapar de filtros de detecção de conteúdo. Nos comentários, há links para sites fraudulentos, marcados como “a página deste conteúdo no IMDB”
Mesmo assim, o problema das bordas continua grande
O consumidor médio parece preferir essas características ao comparar imagens ou vídeos, e as usa como heurística para julgar qualidade. Também houve comparações entre modelos antigos de geração texto-para-imagem e as gerações mais recentes, defendendo que os modelos antigos, menos retocados, não tendiam tanto quanto os atuais a produzir saídas kitsch e exageradas
Talvez eu esteja vendo isso de forma muito fechada, mas quem exatamente quis algo assim, e alguém pensou nas consequências de uma geração de lixo por IA facilmente acessível?
Já é quase impossível encontrar conteúdo de qualidade na internet se você não souber onde procurar
Meus dois filhos têm uma inclinação criativa forte, e tenho medo de que, por causa da IA, eles não consigam ganhar a vida criando. Mas ultimamente também tenho pensado de outro jeito
Passamos décadas gastando bilhões, talvez trilhões de dólares, para melhorar tecnologias de entretenimento. Quando a IA conseguir criar qualquer entretenimento imaginável, talvez comecemos a achar esse entretenimento entediante. Nesse momento, talvez passemos a considerar a exploração espacial, a expansão do conhecimento em física e química e a luta contra doenças muito mais interessantes. Porque essas coisas são reais. Pelo mesmo ponto de vista, a arte feita por humanos também pode se tornar mais interessante por ser real
As pessoas empolgadas com IA aparecem principalmente online e, por falta de expressão melhor, parecem estar realmente muito imersas na internet, sem habilidade, conhecimento ou capacidade para criar arte por conta própria. No instante em que alguém diz “gerado por IA”, o interesse artístico desaparece imediatamente. Não é como usar Photoshop ou ferramentas de arte digital. Apresentar a intervenção humana mínima como uma vantagem, no momento em que aquilo é apresentado como arte, para mim já não se sustenta desde o ponto de partida. Vou observar se a visão utópica dessa tecnologia se realiza, mas já vi várias vezes um otimismo ofegante com novas tecnologias acabar se cristalizando em lixo sem graça, estilo MBA, movido por publicidade, então não sou muito otimista
Sigo muitas novas comunidades de geração por IA no Twitter, e há muita gente da indústria criativa nelas. Uma pessoa que trabalhava no setor de publicidade compartilhou recentemente a história de uma filmagem para uma marca famosa. Soundstage, atores, som, maquiagem, iluminação etc. ficaram montados durante 3 dias, e cerca de 25 pessoas trabalharam por 3 dias. Mas, incluindo pré-produção e pós-produção, houve por trás cerca de 3 meses de esforço. Pense em edição, correção de cor, edição de som, música etc. Crianças criativas talvez vivam em um mundo em que possam alcançar resultados parecidos por conta própria. Em uma equipe pequena, uma pessoa fica com personagens, outra com áudio, outra com roteiro, e assim por diante. Sem equipamentos alugados de dezenas de milhares de dólares e sem 25 especialistas, será possível concretizar ideias da cabeça com persistência e ferramentas de geração por IA. Acredito sinceramente que essas novas ferramentas vão abrir potenciais além do que imaginamos agora
Obras geradas por IA encontrarão seu lugar ao lado de obras geradas por humanos. Talvez até melhorem o mercado de filmes de arte e de grandes atuações, ao destacar a diferença que um pouco de talento humano faz. O que está em risco não é a arte, mas o trabalho braçal. O que muda é a escala dos fracassos produzidos por humanos que empregavam milhões de pessoas passar para fracassos produzidos por IA que empregam apenas dezenas
Isso é realmente impressionante. A consistência espacial e temporal é inacreditável
O resultado esperado é este: todos os roteiros de Hollywood agora serão enviados junto com um filme de pré-visualização, surgirá um conversor que transforma quadrinhos em animação, e serão criados anúncios online para muito mais produtos
Depois disso, teremos que ver se essa tecnologia estagna ou continua subindo
Transformar quadrinhos em animação já existe. Anúncios, especialmente anúncios sociais e online, também já estão acontecendo