Lançamento do Sora 2: o modelo de próxima geração de vídeo e áudio da OpenAI (Sora 2 is here)

(openai.com)

10 pontos por clumsypupil 2025-10-01 | 2 comentários | Compartilhar no WhatsApp

🔑 Principais destaques
• Simulação física mais realista
• Se o modelo anterior encenava o sucesso “teletransportando” objetos, o Sora 2 agora reproduz até falhas físicas reais e rebotes.
• Oferece resultados mais próximos das leis da física, como uma bola de basquete batendo no aro e quicando para fora.
• Controle e consistência avançados
• Consegue seguir com precisão instruções complexas (múltiplos takes, transições de cena, manutenção de estado).
• Mantém o estado do mundo (world state) de personagens e objetos entre diferentes cenas.
• Variedade de estilos
• Pode gerar vídeos de alta qualidade em estilos como realismo, cinematográfico e animação.
• Também oferece geração de áudio sincronizado, incluindo música de fundo, efeitos sonoros e falas.
• Recurso “Upload yourself” (Cameos)
• O usuário envia um vídeo curto e áudio → o modelo pode inserir essa pessoa em qualquer cena.
• Reflete tanto a aparência quanto a voz.
• O controle permanece com a própria pessoa, com possibilidade de gerenciar permissões e excluir.
• Lançamento do app social “Sora” (iOS)
• Uma nova rede social centrada em criação, remix e compartilhamento.
• Começa por convite, com lançamento inicial nos EUA e no Canadá.
• Gratuito no básico + limite de uso, com modelo Pro e gerações extras previstos como pagos.
• Segurança e lançamento responsável
• Algoritmo do feed: foco em “estimular a criação”, em vez de otimizar o tempo gasto.
• Proteção de adolescentes: limite de exposição no feed e recursos de controle parental.
• Direitos autorais/consentimento: usuários do Cameo têm garantidos os direitos de acesso e exclusão.
• Reforço da moderação humana para lidar com assédio e abuso.
• Contexto técnico
• Se o Sora 1 era o “GPT-1 para vídeo”, o Sora 2 representa um “momento GPT-3.5”.
• Pré-treinamento (pre-training) e pós-treinamento (post-training) com um volume maior de dados de vídeo → mais um passo em direção a um modelo de simulação do mundo.
• Próximos passos
• Também estará acessível em sora.com.
• Está prevista a oferta do Sora 2 Pro para usuários Pro.
• Há planos de disponibilizar uma API.
• O Sora 1 Turbo existente também continuará disponível.

⸻

📝 Resumo
• Sora 2 = modelo de geração de vídeo e áudio fisicamente mais sofisticado
• Permite inserir cameos de pessoas/objetos → experiência disponível no app social Sora
• Plataforma focada em social + criação → prioriza produção de conteúdo em vez de consumo de tempo
• Lançamento inicial: iOS nos EUA e Canadá → expansão prevista para web/Pro/API

2 comentários

colus001 2025-10-01

Se esse tipo de vídeo passar a ser produzido em grande quantidade, talvez até consiga afastar as pessoas do vício em shorts. Se eu pudesse fazer até vídeos curtos de supercarros com o meu próprio rosto, quanto valor os shorts de supercarros ainda teriam?

GN⁺ 2025-10-01

Opiniões do Hacker News

Parece que a OpenAI está tentando transformar o Sora em uma rede social, ou seja, uma versão em IA do TikTok (AITok)
O web app está focado em uma estrutura orientada ao consumo, com feed, curtidas e comentários em posts, perfis de usuário etc.
A geração de vídeo é um elemento secundário, e os vídeos gerados são muito curtos, com configurações simples (só dá para escolher horizontal/vertical)
Não há sequer menção ou tentativa de oferecer vídeos longos ou com foco em narrativa, nem recursos avançados de edição; comparado a outras plataformas como o Google Flow, há muitas limitações funcionais
Foram anexados vídeos de teste de precisão física, mas o Veo também não conseguiu lidar direito com esses prompts
Além disso, é interessante ver que estão sendo publicados tanto vídeos bastante impressionantes quanto vídeos bem toscos
Exemplo de física no Sora 1
Exemplo de física no Sora 2
Exemplo no Veo 1
Exemplo no Veo 2
- Pessoalmente, eu gosto de tecnologia inovadora e IA, mas não sei se "TikTok, só que com IA" é uma iniciativa socialmente desejável
  Fico curioso para saber se existe algum efeito positivo realmente claro que isso possa gerar
- A menos que a eficiência energética da geração de vídeo melhore drasticamente, ou que o custo de energia fique praticamente próximo de zero
  acho improvável que um serviço de consumo massivo de vídeo em tempo real no nível do TikTok se sustente do ponto de vista da rentabilidade
  No momento, vídeos enviados por pessoas reais ainda consomem muito menos energia e custam bem menos
- A estratégia da OpenAI de fazer o Sora crescer como rede social é, na verdade, algo que o Midjourney já vem aplicando com imagens
  Midjourney Explore - Videos
  Muita gente gosta do estilo visual único do Midjourney, e o modelo aprende com base em avaliações e interações
  No caso de geração de imagem, também é mais fácil lidar com o nível de "estética"
- A Meta também fez uma tentativa parecida recentemente
  Meta anuncia Vibes AI Video
- Reforçar os recursos de feed voltados ao consumo é claramente uma das direções
  Outra razão é que, em vez de vários usuários gastarem recursos na mesma janela de prompt vazia para gerar resultados parecidos
  é mais eficiente primeiro mostrar bons exemplos e, por meio de discussões relacionadas, chegar mais rápido a resultados de alta qualidade
Sempre que vejo tecnologias assim, lembro da fala do Jeff Goldblum em Jurassic Park
Nosso chefe mostra vídeos de IA mal acabados feitos com essas ferramentas e grita "isso é o futuro",
mas parece nunca fazer a pergunta fundamental: "quem realmente quer isso, e quem vai assistir isso?"
O conteúdo de IA ainda tem limitações que saltam aos olhos imediatamente
- Tive a mesma sensação ao ver o app Vibes da Meta
  Quem vai gostar de assistir a um fluxo de vídeos feitos só por IA? Para a Meta é ótimo, porque sai mais barato conseguir conteúdo do que pagar pessoas,
  mas na prática isso não passa de "slop" de baixa qualidade
A questão dos direitos autorais está sendo tratada com frouxidão demais
O Sora, por padrão, está configurado para usar a propriedade intelectual do usuário em vídeos de IA, e só fica de fora se o usuário recusar explicitamente
Artigo relacionado
Além disso, parece que as pessoas tocando um projeto com esse nível de impacto têm pouca experiência de vida real
e estão obcecadas apenas com tecnologias brilhantes e curiosas, sem se importar com influência e consequências
(o Vibes da Meta entra no mesmo contexto)
- O próprio artigo diz que foi escrito por um robô, então fico curioso se existe uma fonte mais confiável
- No Grok, personagens com direitos autorais já vêm sendo usados livremente há mais de um ano, mas ainda não houve processo
Esse tipo de tecnologia faz pensar na possibilidade de, no futuro, licenciar isso para marcas
e produzir vídeos publicitários muito mais personalizados
Por exemplo, seria uma experiência bem interessante poder ver um vídeo meu vestindo uma roupa antes de fazer o pedido real
Se isso chegar à geração em tempo real, dá até para imaginar que, ao passar na frente do espelho de uma loja de departamento, minha aparência mudaria automaticamente para vários looks
É uma época empolgante
- Se chegar a esse ponto, talvez nem seja mais necessário comprar roupa fisicamente
  Influenciadores poderiam se contentar em postar vídeos simulados de si mesmos nas redes sociais, promovendo coisas sem nunca ir ao local de verdade
  Tweet-meme relacionado
  Indo além, seria até possível gerar vídeos falsos em que você aparece em festas com amigos sem nunca sair de casa
  no fim, daria para ficar em casa tomando sorvete enquanto nas redes parece que você tem uma vida super ativa
- Acho que já vi algo parecido em Minority Report
  No filme, foi marcante a forma como os anúncios chamavam diretamente o nome do Tom Cruise
  Minority Report - wiki do filme
- Isso é chamado de 'Virtual Try On (VTO)' e já é bastante usado com imagens estáticas
  É natural esperar que o VTO em vídeo apareça em breve
- No fim, o uso mais comum desses modelos de vídeo provavelmente vai se concentrar em visualização personalizada, como provar produtos virtualmente
  porque as pessoas, no fim das contas, preferem criar conexão com outras pessoas do que com IA
  Sora e VEO também podem trazer grandes mudanças para a produção de conteúdo de cinema e TV
- AR para posicionamento de móveis (colocar virtualmente um móvel na sua casa para ver como fica) também já foi chamado de inovação antes
  mas na prática quase ninguém usa
O principal motivo de a geração de imagens do ChatGPT ter atraído mais de 100 milhões de usuários na primeira semana
é que as pessoas adoram criar com IA fotos de amigos, familiares e animais de estimação
Imagino que o 'recurso de cameo' também seja uma tentativa de capturar de novo esse apelo viral
- Felizmente, animais de estimação não precisam dar consentimento separado para uso em vídeos de IA
  então, a menos que a PETA se oponha, talvez não haja problema
O ponto mais interessante é
a função em que, se o usuário incluir no prompt um clipe de vídeo de uma pessoa ou produto,
a IA cria um vídeo realista com base nesses metadados
Tecnicamente, isso parece ser efeito de treinamento prévio com um conjunto de dados bastante sofisticado
Do ponto de vista do usuário, pode virar um recurso comercial realmente útil
Mas esse tipo de inovação orientada por dados também pode ser alcançado em breve pelo Google graças ao YouTube,
e há grande chance de que ele já opere internamente tecnologia semelhante
- Não quero nem um pouco que IA seja inserida em vídeos de produtos
  Do ponto de vista de quem investe seu precioso dinheiro, imagens manipuladas ou ilusões de produtos que nem existem se aproximam de fraude
  Acho eticamente problemáticas reviews e propagandas baseadas em fantasia, e não no produto real
Tudo isso, na prática, é mais um avanço rumo a um fluxo infinito de conteúdo personalizado por IA
uma estrutura otimizada para maximizar a liberação de dopamina individual
- Isso parece uma espécie de Torment Nexus que funciona como uma Skinner box (um dispositivo que induz comportamento repetitivo em busca de prazer)
- No momento, esse tipo de estrutura ainda não parece sustentável em termos de energia ou recursos
Um dos prompts de exemplo, "uma intensa batalha animada entre um garoto com uma espada feita de luz azul e um espírito maligno",
é praticamente o mesmo conceito do mangá japonês Blue Exorcist
Blue Exorcist (wiki)
- Há até um prompt de exemplo dizendo "'no estilo de animação do Studio Ghibli, um garoto e um cachorro sobem uma montanha azul, com uma vila visível ao longe'"
- O personagem do dragão parece quase copiado de How to Train Your Dragon
  Fico curioso se existe algum acordo com os detentores dos direitos, ou se estão buscando efeito de mídia usando processos como isca
Do ponto de vista de engenharia, o resultado é realmente impressionante
A qualidade do vídeo já ficou boa o bastante para prender a atenção, e também dá para sentir o efeito de uncanny valley
É admirável como a OpenAI vai acostumando o público gradualmente a esse tipo de tecnologia nova
Esta versão ainda tem muitas limitações, mas parece aquele tipo de evolução que vai romper um limiar técnico em uma ou duas gerações
Por exemplo, no mercado de LLM, o Gemini 2.5 Pro foi um verdadeiro ponto de virada; parece que o Sora também vai chegar logo a esse momento
Da perspectiva dos criadores, o ideal seria poder montar primeiro vários ativos (cenários, objetos etc.) como um conjunto e depois conectar naturalmente várias cenas
É um vídeo com continuidade surpreendentemente melhorada
Ainda assim, alguns erros continuam bem visíveis
1. 0:23 - o jogador de polo com casaco vermelho usa luvas, mas depois aparece sem elas
2. 1:05 - o dragão sobe voando pelo penhasco, mas no close a direção se inverte, e as roupas dos personagens também mudam
3. 1:45 - na cena da corrida de patos, o pato não faz a curva corretamente e vai em direção à parede
  Fico curioso para ver como vão resolver problemas mais complexos de storyboard
- O vídeo escondeu os problemas de continuidade com uma quantidade enorme de cortes e trocas rápidas de câmera
  Dá para notar que, a cada corte, tudo continua mudando: lentilha-d'água, snowmobile e todos os outros elementos
  No fim, só os rostos parecem consistentes
  No geral, os problemas típicos de vídeo gerado por IA continuam os mesmos, e quase não há cenas que durem mais de 5 segundos no mesmo ambiente
- Na cena da corrida de patos também, quando Sam aparece, já surge uma grama completamente diferente
- O fato de até esta demo ter muitos erros
  sugere que os resultados de usuários comuns serão muito piores
- Na cena da lagoa em que usam bo staff, o ângulo do punho se dobra de forma anormal
- Na demo do bo staff na lagoa, há momentos claramente "com cara de IA", como quando o bastão de madeira de repente vira a forma de um arco

Lançamento do Sora 2: o modelo de próxima geração de vídeo e áudio da OpenAI (Sora 2 is here)

Leituras relacionadas

2 comentários

Opiniões do Hacker News