SANA-WM, modelo de mundo open source de 2,6 bilhões de parâmetros para vídeos 720p de 1 minuto

(nvlabs.github.io)

1 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp

O SANA-WM da NVIDIA recebe como entrada uma imagem e uma trajetória de câmera 6-DoF para gerar, em uma única GPU, vídeo controlável de 1 minuto em 720p
O Hybrid Linear Diffusion Transformer combina Gated DeltaNet por frame com softmax periódico para manter a consistência em rollouts longos
O treinamento levou 15 dias em 64 H100, e a variante destilada faz denoising de um clipe 720p de 60 segundos em 34 segundos em uma RTX 5090 usando NVFP4
Usa cerca de 213 mil vídeos públicos e supervisão de poses 6-DoF em escala métrica para permitir seguimento preciso de trajetórias de câmera
No benchmark de modelos de mundo de 1 minuto, supera baselines open source anteriores em precisão de seguimento de ações e alcança 36x mais throughput com qualidade visual semelhante

Modelo e materiais públicos

O SANA-WM é um modelo de mundo open source de 2,6 bilhões de parâmetros que recebe uma imagem e uma trajetória de câmera para gerar vídeo controlável de 1 minuto em 720p
Participaram Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han e Enze Xie, da NVIDIA
Estão disponíveis Paper, Code e Models soon
O título do artigo é SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

Arquitetura principal e pipeline de geração

Estrutura híbrida para rollouts longos
- O Hybrid Linear Diffusion Transformer combina Gated DeltaNet por frame com softmax periódico para manter a consistência do mundo em rollouts de escala de minutos
- Na comparação de eficiência, a variante recorrente escala melhor em memória e latência, enquanto a abordagem all-softmax sofre OOM na geração de 60 segundos
Controle preciso de câmera
- O SANA-WM recebe uma trajetória de câmera 6-DoF como entrada e gera vídeo que segue um caminho de câmera métrico
- Um branch de pose global grosseira e um branch geométrico de alinhamento fino por pixel atuam em conjunto para aumentar a fidelidade no seguimento da trajetória da câmera
- Extrai poses de câmera 6-DoF precisas em escala métrica de vídeos públicos para criar rótulos de ação de alta qualidade e consistência espaço-temporal
Melhoria de qualidade em 2 estágios
- À saída do estágio 1 é aplicado um refiner de vídeo longo de 17B, melhorando qualidade e consistência ao longo de toda a sequência
- O refiner deixa mais nítidos textura, movimento e a qualidade das partes finais com base no backbone de rollout longo

Eficiência de treinamento e inferência

O treinamento levou 15 dias em 64 H100, e os dados de treino incluíram cerca de 213 mil clipes de vídeo públicos e supervisão de poses em escala métrica
Na inferência, é possível gerar vídeo 720p de 1 minuto com uma única H100
A variante destilada usa uma RTX 5090 com quantização NVFP4 para fazer denoising de um clipe 720p de 60 segundos em 34 segundos
O SANA-WM mostra qualidade visual semelhante a grandes baselines industriais como LingBot-World e HY-WorldPlay, com melhor eficiência
No benchmark de modelos de mundo de 1 minuto, apresentou maior precisão no seguimento de ações do que baselines open source anteriores e alcançou 36x mais throughput com qualidade visual semelhante

Características de geração vistas nas demos

Demo de mundo de 1 minuto
- Vários exemplos de 1 minuto mantêm um ponto de observação fixo em primeira pessoa, gerando o movimento do próprio ambiente sem deslocamento de câmera ou ação do observador
- Video 68: estrada nevada nos Alpes, penhasco, entrada de caverna, pingentes de gelo, pinheiros curvados pelo vento e um alpinista de jaqueta laranja, com partículas de neve, neblina, galhos balançando e fluxo de neve fina gerados
- Video 72: em um cruzamento aberto, são gerados floresta azul, torre em ruínas sob nuvens de tempestade e três caminhos que se dividem em direção a uma vila ensolarada
- Video 81: aparecem um cruzamento em T de uma instalação subterrânea de pesquisa sci-fi, um corredor esquerdo inundado, um corredor direito cheio de vapor e uma porta metálica circular aberta para a escuridão
Demo de mundo de 20 segundos
- Video 82: interior de uma cabana abandonada na montanha, mapa desenhado à mão, chave enferrujada, lanterna quente e uma caverna dourada além de uma trilha nevada na floresta, com fumaça de brasa, chama da lanterna e nevasca na fresta da porta em movimento
- Video 85: uma porta circular selada em ruínas na selva, símbolos verdes e um pequeno robô explorador, com vinhas, insetos, borboletas, poças d’água e símbolos da porta pulsando
- Video 92: corredor de pedra de um templo antigo submerso, colunas de coral, fenda esverdeada e um pequeno robô submarino esférico, com peixes, bolhas, partículas, algas marinhas e caustics adicionados
Mesmo primeiro frame e prompts repetidos
- Video 100, Video 101, Video 102: no mesmo prompt de planície de sal, mantém carro esportivo, crosta de sal áspera e luz solar baixa enquanto gera poeira de sal, movimento das nuvens, miragem de calor e linhas de vento no chão
- Video 103, Video 104, Video 105: água rasa refletiva, pedras de travessia lamacentas, floresta roxa, nave espacial caída meio submersa, um astronauta de traje espacial e uma pequena criatura alienígena aparecem como variações do mesmo prompt
- Video 119, Video 120, Video 121: em uma cena de nascer do sol na praia tropical, gera ondas, folhas de palmeira, pássaros e movimento das nuvens com ponto de vista fixo

Exemplos do efeito do Refiner

Cânion na selva
- Video 124 e Video 125 são exemplos de Stage 1 Refined, compondo o interior de um enorme cânion na selva em um ponto de vista fixo em primeira pessoa
- Incluem um antigo templo de pedra vagamente visível atrás da cachoeira, um aviãozinho de papel dobrado, pássaros coloridos, folhas flutuando, paredes de pedra molhadas, vinhas emaranhadas e gotas d’água
- Cachoeira, neblina, batida de asas dos pássaros, folhas caindo, gotas d’água cintilantes e o aviãozinho de papel tremendo com a corrente de ar se movem de forma autônoma
Porta antiga esculpida no penhasco
- Video 126 e Video 127 mostram uma porta antiga dentro de um penhasco em uma área elevada da floresta
- Degraus de pedra ligam um caminho coberto de musgo até a porta semiaberta, com colunas esculpidas, estátuas guardiãs, paredes cobertas de hera, um vale montanhoso à esquerda e um viajante com capa perto da entrada
- A luz quente do fim da tarde se combina com um brilho turquesa vazando da porta, enquanto folhas, pássaros, vinhas e a luz do portal se movem de forma independente
Templo antigo submerso
- Video 130 e Video 131 apresentam lado a lado os resultados do Stage 1 e do refined
- Um caminho de pedra passa entre colunas cobertas de coral, e uma luz verde brilhante escapa da fenda central de uma parede ritual rachada, alinhando-se com símbolos luminosos no chão
- Um pequeno robô submarino esférico flutua à frente, enquanto peixes, bolhas, partículas, algas marinhas, caustics e símbolos verdes se movem de forma autônoma

Notas sobre a produção das demos

Todos os vídeos da página foram gerados com a variante bidirecional do SANA-WM e depois passaram por um refiner de vídeo longo em 2 estágios
As imagens do primeiro frame de todos os vídeos de demonstração na galeria foram geradas com OpenAI GPT Image 2 e Google Nano Banana Pro, e o SANA-WM animou as imagens estáticas em vídeos de 1 minuto

1 comentários

GN⁺ 1 시간 전

Comentários do Hacker News

Do ponto de vista de videogames, esse tipo de modelo de mundo não convence muito
Não sou desenvolvedor de jogos, mas os jogos de que gosto têm uma intencionalidade profunda. Por exemplo, em jogos da FromSoftware ou no recente Lies of P, normalmente nem um único objeto é colocado ao acaso, e quase tudo é posicionado de forma intencional
Em contraste, jogos sem essa intencionalidade parecem mortos, quebram a imersão ou fazem você sair da experiência que os desenvolvedores queriam transmitir
É difícil imaginar se um modelo de mundo conseguiria chegar ao ponto de capturar essa intencionalidade. Até os melhores LLMs ainda falham com frequência na escrita e no código, e a superfície de experiência dessas mídias parece menor do que o escopo de interação do usuário em videogames
Também não está claro como um ser humano poderia usar esse tipo de modelo de mundo de forma modular quando quisesse criar uma experiência intencional. Os LLMs são modularizados até certo ponto, no sentido de que um produz texto, a pessoa corrige, outro LLM continua etc., mas não sei se a saída em vídeo aqui funciona da mesma forma
No fim, o modelo de mundo em si é impressionante, mas, como aconteceu com os LLMs para escrita, não está claro para que exatamente estamos construindo isso. Não sei se isso só vai permitir criar experiências menos satisfatórias e menos humanas mais rápido, ou se o benefício mais imediato é para sistemas robóticos criarem um mundo e simularem as consequências de ações dentro dele
No geral, parece que estamos correndo em direção a um mundo em que há menos intencionalidade por trás de tudo o que experimentamos, e em que tudo fica mais impessoal e mais barulhento
- Há duas coisas aqui. Primeiro, mesmo sem IA, tanto ambientes cuidadosamente projetados quanto ambientes de geração procedural são possíveis, e ambos podem ser bem feitos. Da mesma forma, ambos também podem fracassar por motivos próprios de cada abordagem
  Geração procedural descuidada pode produzir pouca variedade ou resultados sem sentido, e posicionamento manual descuidado pode quebrar as regras estabelecidas pelo jogo e criar uma experiência inconsistente
  Manter coerência interna por meio de posicionamento explícito fica mais difícil à medida que a escala aumenta. Se coerência interna é um fator que afeta a qualidade, então, a partir de certa escala, conteúdo gerado pode até se tornar a solução de maior qualidade
  Segundo, as mesmas regras sobre descuido também se aplicam quando se cria conteúdo com IA. Existem ferramentas de IA generativa que quase não oferecem opções para moldar o que você quer, mas isso não é uma propriedade essencial da IA. Às vezes é porque as pessoas querem interfaces simples, e às vezes porque os geradores ainda são novos e estão mais focados em primeiro fazer alguma coisa do que em oferecer controle fino, então os controles são limitados
  Em certo sentido, isso ainda é novo demais para até mesmo explicar bem que tipo de controle seria desejável, e acho razoável primeiro construir o gerador e ver o que as pessoas querem fazer antes de criar os recursos de controle desejados. Há também ferramentas para controlar em alto nível o estilo do material gerado, o posicionamento de objetos, o movimento de câmera e a composição da cena, mas muito menos gente tem acesso a elas
  A IA pode tornar possível criar coisas que sem ela não seriam viáveis, mas ainda é preciso cuidado para fazer algo especial
- Sim. Isso vai inundar o mundo com conteúdo que parece plausível por fora, mas é vazio por dentro. Também dá para anexar qualquer tema que você quiser
  Pessoas com baixo critério não vão reclamar, mas o resto vai acabar gastando cada vez mais tempo para encontrar 1 coisa boa no meio de 100, das quais 99 são só ruído
  É bem parecido com a Amazon também. Busca quebrada, exibição manipulada de preço unitário e uma enxurrada de cópias baratas se combinam para fazer o usuário desistir e comprar o que aparece no topo, ou seja, itens recomendados ou cópias da própria Amazon
  Se você pesquisar produtos na web e for para a aba de imagens, em muitos casos 50% a 90% dos resultados são links de produtos da Amazon
- Acho que esses modelos vão acabar sendo parecidos com a antiga prensa de Gutenberg. A quantidade de conteúdo vai crescer drasticamente, e a maior parte não vai ser muito boa
  Mas, por causa do volume avassalador, isso também pode aumentar a quantidade total de conteúdo de alta qualidade. Em outras palavras, a qualidade média dos jogos vai cair, mas a velocidade com que jogos realmente “excelentes” surgem deve aumentar
- Acho que isso toca na essência do que está acontecendo com IA em geral agora. Gráficos, imagens, vídeo, música, texto e código parecem impressionantes, mas dão uma sensação de vazio e inutilidade
  Em qualquer trabalho da vida, a qualidade do resultado reflete diretamente o cuidado e a intenção colocados por trás dele. Simplificando, reflete quanto esforço foi investido, e isso sempre aparece. Na era da IA isso continua sendo verdade
  Só que o caminho até um resultado sem esforço ficou muito mais curto, então o volume aumentou e diluiu a impressão geral. Esses resultados baratos fazem tudo o que tocam parecer barato, então vai ser preciso ainda mais esforço para se destacar
- Casos como FromSoftware ou Lies of P, em que cada objeto foi colocado de forma intencional, são exemplos bem específicos e tendenciosos
  Há muitos jogos bons que não dependem de colocação minuciosa de itens. Por exemplo, muitos jogos da Bethesda eram ótimos justamente porque a maioria dos objetos era decoração inútil, e quando os títulos mais recentes tentaram dar propósito a toda a tralha, quebrando essa regra, ficaram muito piores
  Também há muitos bons jogos que não dependem nada desse tipo de intencionalidade e que são, literalmente, só um monte de ideias legais jogadas juntas aleatoriamente, ou geradas proceduralmente
Dizer que os pesos do modelo saem “em breve” significa, por enquanto, que isso é vaporware. Como dá para chamar de “open source” se os pesos nem foram liberados?
É natural que todo mundo esteja cético com esses resultados vindos de um modelo de 2.8B. Sem os pesos, isso não aconteceu
- O modelo está aqui: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- Para ser justo, a base de código inteira é open source, então isso já é melhor do que a maioria dos modelos com pesos abertos. Ainda assim, entendo perfeitamente o sentimento
  https://github.com/NVlabs/Sana
- Então claramente isso não é aberto. Fico me perguntando se dá para mudar o título
Dizem 2.6B, mas em seguida aparece a seguinte frase
“Um refinador de vídeo longo 17B dedicado melhora nitidez de textura, movimento e qualidade das partes finais sobre o backbone de rollout longo”
Tudo parece videogame. Imagino que tenham usado Unreal Engine para gerar dados sintéticos de treinamento
O fato de isso rodar em GPU é bem impressionante. Vejo gente expressando reclamações e preocupações, mas ainda estamos no começo, e este provavelmente é o pior estado em que isso estará, então estou muito empolgado com o impacto que isso pode ter nos jogos
Talvez seja uma pergunta boba, mas onde exatamente está o “mundo” no que está sendo gerado aqui? Existe alguma representação abstrata de espaço físico real, tipo um grafo de cena no estilo de engine de jogo, ou isso só quer dizer “este gerador de vídeo é fisicamente mais consistente do que outros geradores de vídeo”?
- Modelo de mundo é um modelo que, dado o estado atual e, opcionalmente, as ações de um agente que vive nesse mundo, prevê o próximo estado do mundo simulado. É bem parecido com um modelo de linguagem que prevê a próxima palavra
  Esse estado do mundo pode ser qualquer coisa, mas nos últimos 1 ou 2 anos o termo passou a ser usado de forma mais restrita. Ele passou a significar modelos de geração de vídeo que respondem naturalmente a manipulações como as de um jogo e dão a impressão de estar simulando um videogame. Mas não há nenhum estado adicional por trás dos frames de vídeo
- Neste contexto, mundo significa que esses vídeos são interativos como um videogame. Nos exemplos vinculados dá para ver entrada de teclado e mouse
  O modelo foi treinado para manter consistência de cena por cerca de 1 minuto, então, depois de olhar ao redor, objetos que saíram da tela reaparecem quando você olha naquela direção de novo
Onde está o download? Não achei no GitHub, e o botão de download na página está desativado
E será que isso roda numa RTX 4090 com 24 GB de memória?
- Existe uma versão de 5 segundos: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- Se você rolar para baixo, há mais vídeos, e parece que o modelo vai ser publicado “em breve”
Aviso: ao ver os vídeos com reprodução automática naquela página, o download chegou a 350 Mbps
- Só fui perceber depois de deixar a página aberta numa aba por mais de uma hora. Eles estão mesmo retransmitindo o mesmo vídeo sem parar? É vídeo demais para cachear e por isso ficam reenviando infinitamente?
  Espero que ninguém em rede limitada ou com franquia abra aquela página e a deixe aberta
  Surpreende o GitHub não ter derrubado aquilo
  Pesquisadores de IA estão tão acostumados a queimar recursos computacionais e de rede que simplesmente param de pensar quando fazem uma página que toca e repete vários vídeos em HD automaticamente?
- Com a minha conexão de 70 Mbps, eu nem consegui fazer os vídeos bufferizarem, então desisti de assistir. Nem pareciam tão alta qualidade assim
Um modelo de 2.6B gerar um vídeo de 1 minuto com esse nível de qualidade e consistência parece absurdamente impressionante
No primeiro vídeo do homem caminhando na montanha nevada, há um problema de consistência na entrada da caverna. Isso é “esperado” para um modelo desse tamanho?
- A maioria dos vídeos parece ter um pouco desse problema. Por exemplo, no vídeo da biblioteca, o formato dos livros sobre a mesa muda às vezes
  Se os exemplos forem representativos, o efeito do ‘Refiner’ parece até funcionar ao contrário. Em todos os casos, a imagem do estágio 1 parece melhor do que a imagem ‘refinada’. Tem menos tralha, é mais realista e, para quem conhece a expressão, tem menos “cowbell”
- Todos os vídeos mostram problemas de consistência bastante perceptíveis quando a câmera volta a se virar para uma área que já havia sido mostrada

SANA-WM, modelo de mundo open source de 2,6 bilhões de parâmetros para vídeos 720p de 1 minuto

Modelo e materiais públicos

Arquitetura principal e pipeline de geração

Estrutura híbrida para rollouts longos

Controle preciso de câmera

Melhoria de qualidade em 2 estágios

Eficiência de treinamento e inferência

Características de geração vistas nas demos

Demo de mundo de 1 minuto

Demo de mundo de 20 segundos

Mesmo primeiro frame e prompts repetidos

Exemplos do efeito do Refiner

Cânion na selva

Porta antiga esculpida no penhasco

Templo antigo submerso

Notas sobre a produção das demos

Leituras relacionadas

1 comentários

Comentários do Hacker News