OpenAI Sora: revelado modelo de IA que gera vídeos a partir de texto

(openai.com)

12 pontos por GN⁺ 2024-02-16 | 6 comentários | Compartilhar no WhatsApp

Sora é um modelo de IA que cria cenas realistas e imaginativas a partir de instruções em texto
É capaz de gerar vídeos de até 1 minuto, mantendo a qualidade visual e seguindo fielmente o prompt do usuário
São apresentados exemplos de vídeos gerados a partir de vários prompts com cenários detalhados
- Todos os vídeos desta página foram produzidos diretamente pelo Sora e não foram editados de forma alguma
No momento, o Sora está sendo disponibilizado a equipes de red team para avaliação de riscos e está recebendo feedback de artistas visuais, designers e cineastas
A OpenAI quer compartilhar o andamento da pesquisa para receber feedback externo e mostrar ao público o futuro das capacidades da IA

Capacidades do Sora

Pode gerar cenas complexas com vários personagens, movimentos específicos e detalhes precisos do tema e do plano de fundo
Entende não apenas o prompt do usuário, mas também como as coisas existem no mundo físico

Segurança do Sora

A OpenAI pretende adotar várias medidas de segurança antes de integrar o Sora aos produtos da empresa
Isso inclui o desenvolvimento de ferramentas para detectar conteúdo enganoso e de classificadores capazes de identificar se um vídeo foi gerado pelo Sora

Tecnologia de pesquisa

O Sora é um modelo de difusão que gera vídeos começando com um vídeo cheio de ruído e removendo esse ruído gradualmente
Usa uma arquitetura Transformer semelhante à dos modelos GPT, oferecendo excelente escalabilidade

Opinião do GN⁺

O Sora é uma tecnologia inovadora de IA que gera vídeos a partir de instruções em texto e oferece novas possibilidades para profissionais criativos
Por meio de medidas de segurança e feedback, ele aprende sobre o uso no mundo real e desempenha um papel importante para tornar sistemas de IA gradualmente mais seguros
Essa tecnologia parece ser um marco importante rumo à conquista da AGI (inteligência artificial geral) no futuro

6 comentários

draupnir 2024-02-17

Só dá para ficar realmente impressionado.
Vai levantar 7 trilhões...?

laeyoung 2024-02-16

Se olhar por cima, fica difícil saber se é um vídeo real ou um vídeo feito por IA.

edunga1 2024-02-16

Uau... quero testar logo.
Esse tal de modelo de difusão seria algo no mesmo estilo do Stable Diffusion, certo?

dothx 2024-02-16

Parece que o mercado de stock photo e stock video vai ficar complicado...

xguru 2024-02-16

A qualidade da geração é impressionante. Está evoluindo tão rápido assim?

GN⁺ 2024-02-16

Opiniões no Hacker News

Um usuário expressa preocupação com o futuro apesar do avanço técnico. Ele acha que a rede de proteção social é fraca e que não estamos nos aproximando de uma renda básica universal (UBI). Também demonstra medo de uma única empresa ter poder demais.
Outro usuário ficou profundamente impressionado com a qualidade do movimento gerado por computador. Em especial, observa que, ao contrário da captura de movimento, é difícil reproduzir em animação por computador movimentos que pareçam reais, mas desta vez tudo parece muito realista.
Outro usuário destaca a importância do modelo ir além do aspecto de imagem/vídeo e mostrar compreensão de física e das relações entre objetos. Ele avalia que os exemplos citados como falhas são, na verdade, casos importantes que demonstram uma forte compreensão do mundo por parte do modelo.
Segundo o Hollywood Reporter, muitas pessoas do setor estão com medo por causa do avanço das ferramentas de IA. Algumas estão considerando deixar a indústria, e espera-se que as ferramentas de IA afetem empregos, especialmente na produção de publicidade.
Um usuário menciona que o resultado supera de longe os modelos atualmente divulgados.
Outro usuário chama atenção para pequenos erros encontrados no vídeo de Tóquio e levanta a dúvida se esse tipo de erro sempre existirá em conteúdo gerado, e se crianças expostas desde cedo a esse tipo de conteúdo podem se tornar insensíveis a essas falhas.
Um usuário diz que o modelo Gemini 1.5 já parece ultrapassado e se surpreende com o fato de o Google ter anunciado isso por meio de um blog.
Um programador expressa um pressentimento sombrio em relação ao avanço da IA, dizendo que isso vai além do simples medo de perder o emprego. Sobre a qualidade do vídeo, ele a considera inacreditavelmente impressionante.
Um usuário faz uma pergunta técnica sobre a forma como o vídeo é gerado, querendo entender como o modelo separa a estrutura geométrica da cena e a câmera.
Por fim, outro usuário acredita que o avanço da tecnologia trará mudanças culturais e que isso fará as pessoas quererem ver mais peças teatrais, palestras e shows humanos nos teatros. Assim como o vinil voltou a ganhar popularidade, ele prevê que os teatros também possam voltar a se popularizar.