12 pontos por GN⁺ 2024-02-16 | 6 comentários | Compartilhar no WhatsApp
  • Sora é um modelo de IA que cria cenas realistas e imaginativas a partir de instruções em texto
  • É capaz de gerar vídeos de até 1 minuto, mantendo a qualidade visual e seguindo fielmente o prompt do usuário
  • São apresentados exemplos de vídeos gerados a partir de vários prompts com cenários detalhados
    • Todos os vídeos desta página foram produzidos diretamente pelo Sora e não foram editados de forma alguma
  • No momento, o Sora está sendo disponibilizado a equipes de red team para avaliação de riscos e está recebendo feedback de artistas visuais, designers e cineastas
  • A OpenAI quer compartilhar o andamento da pesquisa para receber feedback externo e mostrar ao público o futuro das capacidades da IA

Capacidades do Sora

  • Pode gerar cenas complexas com vários personagens, movimentos específicos e detalhes precisos do tema e do plano de fundo
  • Entende não apenas o prompt do usuário, mas também como as coisas existem no mundo físico

Segurança do Sora

  • A OpenAI pretende adotar várias medidas de segurança antes de integrar o Sora aos produtos da empresa
  • Isso inclui o desenvolvimento de ferramentas para detectar conteúdo enganoso e de classificadores capazes de identificar se um vídeo foi gerado pelo Sora

Tecnologia de pesquisa

  • O Sora é um modelo de difusão que gera vídeos começando com um vídeo cheio de ruído e removendo esse ruído gradualmente
  • Usa uma arquitetura Transformer semelhante à dos modelos GPT, oferecendo excelente escalabilidade

Opinião do GN⁺

  • O Sora é uma tecnologia inovadora de IA que gera vídeos a partir de instruções em texto e oferece novas possibilidades para profissionais criativos
  • Por meio de medidas de segurança e feedback, ele aprende sobre o uso no mundo real e desempenha um papel importante para tornar sistemas de IA gradualmente mais seguros
  • Essa tecnologia parece ser um marco importante rumo à conquista da AGI (inteligência artificial geral) no futuro

6 comentários

 
draupnir 2024-02-17

Só dá para ficar realmente impressionado.
Vai levantar 7 trilhões...?

 
laeyoung 2024-02-16

Se olhar por cima, fica difícil saber se é um vídeo real ou um vídeo feito por IA.

 
edunga1 2024-02-16

Uau... quero testar logo.
Esse tal de modelo de difusão seria algo no mesmo estilo do Stable Diffusion, certo?

 
dothx 2024-02-16

Parece que o mercado de stock photo e stock video vai ficar complicado...

 
xguru 2024-02-16

A qualidade da geração é impressionante. Está evoluindo tão rápido assim?

 
GN⁺ 2024-02-16
Opiniões no Hacker News
  • Um usuário expressa preocupação com o futuro apesar do avanço técnico. Ele acha que a rede de proteção social é fraca e que não estamos nos aproximando de uma renda básica universal (UBI). Também demonstra medo de uma única empresa ter poder demais.
  • Outro usuário ficou profundamente impressionado com a qualidade do movimento gerado por computador. Em especial, observa que, ao contrário da captura de movimento, é difícil reproduzir em animação por computador movimentos que pareçam reais, mas desta vez tudo parece muito realista.
  • Outro usuário destaca a importância do modelo ir além do aspecto de imagem/vídeo e mostrar compreensão de física e das relações entre objetos. Ele avalia que os exemplos citados como falhas são, na verdade, casos importantes que demonstram uma forte compreensão do mundo por parte do modelo.
  • Segundo o Hollywood Reporter, muitas pessoas do setor estão com medo por causa do avanço das ferramentas de IA. Algumas estão considerando deixar a indústria, e espera-se que as ferramentas de IA afetem empregos, especialmente na produção de publicidade.
  • Um usuário menciona que o resultado supera de longe os modelos atualmente divulgados.
  • Outro usuário chama atenção para pequenos erros encontrados no vídeo de Tóquio e levanta a dúvida se esse tipo de erro sempre existirá em conteúdo gerado, e se crianças expostas desde cedo a esse tipo de conteúdo podem se tornar insensíveis a essas falhas.
  • Um usuário diz que o modelo Gemini 1.5 já parece ultrapassado e se surpreende com o fato de o Google ter anunciado isso por meio de um blog.
  • Um programador expressa um pressentimento sombrio em relação ao avanço da IA, dizendo que isso vai além do simples medo de perder o emprego. Sobre a qualidade do vídeo, ele a considera inacreditavelmente impressionante.
  • Um usuário faz uma pergunta técnica sobre a forma como o vídeo é gerado, querendo entender como o modelo separa a estrutura geométrica da cena e a câmera.
  • Por fim, outro usuário acredita que o avanço da tecnologia trará mudanças culturais e que isso fará as pessoas quererem ver mais peças teatrais, palestras e shows humanos nos teatros. Assim como o vinil voltou a ganhar popularidade, ele prevê que os teatros também possam voltar a se popularizar.