Lançamento do Sora 2: o modelo de próxima geração de vídeo e áudio da OpenAI (Sora 2 is here)
(openai.com)🔑 Principais destaques
• Simulação física mais realista
• Se o modelo anterior encenava o sucesso “teletransportando” objetos, o Sora 2 agora reproduz até falhas físicas reais e rebotes.
• Oferece resultados mais próximos das leis da física, como uma bola de basquete batendo no aro e quicando para fora.
• Controle e consistência avançados
• Consegue seguir com precisão instruções complexas (múltiplos takes, transições de cena, manutenção de estado).
• Mantém o estado do mundo (world state) de personagens e objetos entre diferentes cenas.
• Variedade de estilos
• Pode gerar vídeos de alta qualidade em estilos como realismo, cinematográfico e animação.
• Também oferece geração de áudio sincronizado, incluindo música de fundo, efeitos sonoros e falas.
• Recurso “Upload yourself” (Cameos)
• O usuário envia um vídeo curto e áudio → o modelo pode inserir essa pessoa em qualquer cena.
• Reflete tanto a aparência quanto a voz.
• O controle permanece com a própria pessoa, com possibilidade de gerenciar permissões e excluir.
• Lançamento do app social “Sora” (iOS)
• Uma nova rede social centrada em criação, remix e compartilhamento.
• Começa por convite, com lançamento inicial nos EUA e no Canadá.
• Gratuito no básico + limite de uso, com modelo Pro e gerações extras previstos como pagos.
• Segurança e lançamento responsável
• Algoritmo do feed: foco em “estimular a criação”, em vez de otimizar o tempo gasto.
• Proteção de adolescentes: limite de exposição no feed e recursos de controle parental.
• Direitos autorais/consentimento: usuários do Cameo têm garantidos os direitos de acesso e exclusão.
• Reforço da moderação humana para lidar com assédio e abuso.
• Contexto técnico
• Se o Sora 1 era o “GPT-1 para vídeo”, o Sora 2 representa um “momento GPT-3.5”.
• Pré-treinamento (pre-training) e pós-treinamento (post-training) com um volume maior de dados de vídeo → mais um passo em direção a um modelo de simulação do mundo.
• Próximos passos
• Também estará acessível em sora.com.
• Está prevista a oferta do Sora 2 Pro para usuários Pro.
• Há planos de disponibilizar uma API.
• O Sora 1 Turbo existente também continuará disponível.
⸻
📝 Resumo
• Sora 2 = modelo de geração de vídeo e áudio fisicamente mais sofisticado
• Permite inserir cameos de pessoas/objetos → experiência disponível no app social Sora
• Plataforma focada em social + criação → prioriza produção de conteúdo em vez de consumo de tempo
• Lançamento inicial: iOS nos EUA e Canadá → expansão prevista para web/Pro/API
2 comentários
Se esse tipo de vídeo passar a ser produzido em grande quantidade, talvez até consiga afastar as pessoas do vício em shorts. Se eu pudesse fazer até vídeos curtos de supercarros com o meu próprio rosto, quanto valor os shorts de supercarros ainda teriam?
Opiniões do Hacker News
Parece que a OpenAI está tentando transformar o Sora em uma rede social, ou seja, uma versão em IA do TikTok (AITok)
O web app está focado em uma estrutura orientada ao consumo, com feed, curtidas e comentários em posts, perfis de usuário etc.
A geração de vídeo é um elemento secundário, e os vídeos gerados são muito curtos, com configurações simples (só dá para escolher horizontal/vertical)
Não há sequer menção ou tentativa de oferecer vídeos longos ou com foco em narrativa, nem recursos avançados de edição; comparado a outras plataformas como o Google Flow, há muitas limitações funcionais
Foram anexados vídeos de teste de precisão física, mas o Veo também não conseguiu lidar direito com esses prompts
Além disso, é interessante ver que estão sendo publicados tanto vídeos bastante impressionantes quanto vídeos bem toscos
Exemplo de física no Sora 1
Exemplo de física no Sora 2
Exemplo no Veo 1
Exemplo no Veo 2
Pessoalmente, eu gosto de tecnologia inovadora e IA, mas não sei se "TikTok, só que com IA" é uma iniciativa socialmente desejável
Fico curioso para saber se existe algum efeito positivo realmente claro que isso possa gerar
A menos que a eficiência energética da geração de vídeo melhore drasticamente, ou que o custo de energia fique praticamente próximo de zero
acho improvável que um serviço de consumo massivo de vídeo em tempo real no nível do TikTok se sustente do ponto de vista da rentabilidade
No momento, vídeos enviados por pessoas reais ainda consomem muito menos energia e custam bem menos
A estratégia da OpenAI de fazer o Sora crescer como rede social é, na verdade, algo que o Midjourney já vem aplicando com imagens
Midjourney Explore - Videos
Muita gente gosta do estilo visual único do Midjourney, e o modelo aprende com base em avaliações e interações
No caso de geração de imagem, também é mais fácil lidar com o nível de "estética"
A Meta também fez uma tentativa parecida recentemente
Meta anuncia Vibes AI Video
Reforçar os recursos de feed voltados ao consumo é claramente uma das direções
Outra razão é que, em vez de vários usuários gastarem recursos na mesma janela de prompt vazia para gerar resultados parecidos
é mais eficiente primeiro mostrar bons exemplos e, por meio de discussões relacionadas, chegar mais rápido a resultados de alta qualidade
Sempre que vejo tecnologias assim, lembro da fala do Jeff Goldblum em Jurassic Park
Nosso chefe mostra vídeos de IA mal acabados feitos com essas ferramentas e grita "isso é o futuro",
mas parece nunca fazer a pergunta fundamental: "quem realmente quer isso, e quem vai assistir isso?"
O conteúdo de IA ainda tem limitações que saltam aos olhos imediatamente
Quem vai gostar de assistir a um fluxo de vídeos feitos só por IA? Para a Meta é ótimo, porque sai mais barato conseguir conteúdo do que pagar pessoas,
mas na prática isso não passa de "slop" de baixa qualidade
A questão dos direitos autorais está sendo tratada com frouxidão demais
O Sora, por padrão, está configurado para usar a propriedade intelectual do usuário em vídeos de IA, e só fica de fora se o usuário recusar explicitamente
Artigo relacionado
Além disso, parece que as pessoas tocando um projeto com esse nível de impacto têm pouca experiência de vida real
e estão obcecadas apenas com tecnologias brilhantes e curiosas, sem se importar com influência e consequências
(o Vibes da Meta entra no mesmo contexto)
O próprio artigo diz que foi escrito por um robô, então fico curioso se existe uma fonte mais confiável
No Grok, personagens com direitos autorais já vêm sendo usados livremente há mais de um ano, mas ainda não houve processo
Esse tipo de tecnologia faz pensar na possibilidade de, no futuro, licenciar isso para marcas
e produzir vídeos publicitários muito mais personalizados
Por exemplo, seria uma experiência bem interessante poder ver um vídeo meu vestindo uma roupa antes de fazer o pedido real
Se isso chegar à geração em tempo real, dá até para imaginar que, ao passar na frente do espelho de uma loja de departamento, minha aparência mudaria automaticamente para vários looks
É uma época empolgante
Se chegar a esse ponto, talvez nem seja mais necessário comprar roupa fisicamente
Influenciadores poderiam se contentar em postar vídeos simulados de si mesmos nas redes sociais, promovendo coisas sem nunca ir ao local de verdade
Tweet-meme relacionado
Indo além, seria até possível gerar vídeos falsos em que você aparece em festas com amigos sem nunca sair de casa
no fim, daria para ficar em casa tomando sorvete enquanto nas redes parece que você tem uma vida super ativa
Acho que já vi algo parecido em Minority Report
No filme, foi marcante a forma como os anúncios chamavam diretamente o nome do Tom Cruise
Minority Report - wiki do filme
Isso é chamado de 'Virtual Try On (VTO)' e já é bastante usado com imagens estáticas
É natural esperar que o VTO em vídeo apareça em breve
No fim, o uso mais comum desses modelos de vídeo provavelmente vai se concentrar em visualização personalizada, como provar produtos virtualmente
porque as pessoas, no fim das contas, preferem criar conexão com outras pessoas do que com IA
Sora e VEO também podem trazer grandes mudanças para a produção de conteúdo de cinema e TV
AR para posicionamento de móveis (colocar virtualmente um móvel na sua casa para ver como fica) também já foi chamado de inovação antes
mas na prática quase ninguém usa
O principal motivo de a geração de imagens do ChatGPT ter atraído mais de 100 milhões de usuários na primeira semana
é que as pessoas adoram criar com IA fotos de amigos, familiares e animais de estimação
Imagino que o 'recurso de cameo' também seja uma tentativa de capturar de novo esse apelo viral
então, a menos que a PETA se oponha, talvez não haja problema
O ponto mais interessante é
a função em que, se o usuário incluir no prompt um clipe de vídeo de uma pessoa ou produto,
a IA cria um vídeo realista com base nesses metadados
Tecnicamente, isso parece ser efeito de treinamento prévio com um conjunto de dados bastante sofisticado
Do ponto de vista do usuário, pode virar um recurso comercial realmente útil
Mas esse tipo de inovação orientada por dados também pode ser alcançado em breve pelo Google graças ao YouTube,
e há grande chance de que ele já opere internamente tecnologia semelhante
Do ponto de vista de quem investe seu precioso dinheiro, imagens manipuladas ou ilusões de produtos que nem existem se aproximam de fraude
Acho eticamente problemáticas reviews e propagandas baseadas em fantasia, e não no produto real
Tudo isso, na prática, é mais um avanço rumo a um fluxo infinito de conteúdo personalizado por IA
uma estrutura otimizada para maximizar a liberação de dopamina individual
Isso parece uma espécie de Torment Nexus que funciona como uma Skinner box (um dispositivo que induz comportamento repetitivo em busca de prazer)
No momento, esse tipo de estrutura ainda não parece sustentável em termos de energia ou recursos
Um dos prompts de exemplo, "uma intensa batalha animada entre um garoto com uma espada feita de luz azul e um espírito maligno",
é praticamente o mesmo conceito do mangá japonês Blue Exorcist
Blue Exorcist (wiki)
Há até um prompt de exemplo dizendo "'no estilo de animação do Studio Ghibli, um garoto e um cachorro sobem uma montanha azul, com uma vila visível ao longe'"
O personagem do dragão parece quase copiado de How to Train Your Dragon
Fico curioso se existe algum acordo com os detentores dos direitos, ou se estão buscando efeito de mídia usando processos como isca
Do ponto de vista de engenharia, o resultado é realmente impressionante
A qualidade do vídeo já ficou boa o bastante para prender a atenção, e também dá para sentir o efeito de uncanny valley
É admirável como a OpenAI vai acostumando o público gradualmente a esse tipo de tecnologia nova
Esta versão ainda tem muitas limitações, mas parece aquele tipo de evolução que vai romper um limiar técnico em uma ou duas gerações
Por exemplo, no mercado de LLM, o Gemini 2.5 Pro foi um verdadeiro ponto de virada; parece que o Sora também vai chegar logo a esse momento
Da perspectiva dos criadores, o ideal seria poder montar primeiro vários ativos (cenários, objetos etc.) como um conjunto e depois conectar naturalmente várias cenas
É um vídeo com continuidade surpreendentemente melhorada
Ainda assim, alguns erros continuam bem visíveis
Fico curioso para ver como vão resolver problemas mais complexos de storyboard
O vídeo escondeu os problemas de continuidade com uma quantidade enorme de cortes e trocas rápidas de câmera
Dá para notar que, a cada corte, tudo continua mudando: lentilha-d'água, snowmobile e todos os outros elementos
No fim, só os rostos parecem consistentes
No geral, os problemas típicos de vídeo gerado por IA continuam os mesmos, e quase não há cenas que durem mais de 5 segundos no mesmo ambiente
Na cena da corrida de patos também, quando Sam aparece, já surge uma grama completamente diferente
O fato de até esta demo ter muitos erros
sugere que os resultados de usuários comuns serão muito piores
Na cena da lagoa em que usam bo staff, o ângulo do punho se dobra de forma anormal
Na demo do bo staff na lagoa, há momentos claramente "com cara de IA", como quando o bastão de madeira de repente vira a forma de um arco