STARFlow-V: Modelo de geração de vídeo ponta a ponta baseado em normalizing flow

(starflow-v.github.io)

2 pontos por GN⁺ 2025-12-03 | 1 comentários | Compartilhar no WhatsApp

O primeiro gerador causal de vídeo que cria vídeos diretamente a partir de entradas de texto, imagem e vídeo usando normalizing flow
Processa em um único modelo treinamento ponta a ponta, estimação de verossimilhança precisa e múltiplas tarefas de geração (T2V/I2V/V2V)
Arquitetura Global-Local, Flow-Score Matching e iteração de Jacobi orientada para vídeo aprimoram a consistência espaciotemporal e a eficiência
Com um modelo de 7B parâmetros, gera vídeos em 480p·16fps, treinado em 70M de pares texto-vídeo e 400M de pares texto-imagem
Demonstra que normalizing flow atinge qualidade comparável a modelos baseados em difusão, comprovando a viabilidade de geração autoregressiva de vídeo de alta qualidade

Visão geral do STARFlow-V

STARFlow-V é um modelo de geração de vídeo causal baseado em normalizing flow que alcança qualidade visual no nível de modelos de difusão
- Oferece simultaneamente treinamento ponta a ponta, estimação de verossimilhança precisa e suporte a múltiplas tarefas de geração
No campo de geração de vídeo, historicamente dominado por modelos de difusão, comprova a viabilidade de normalizing flow
A geração de texto-vídeo (T2V), imagem-vídeo (I2V) e vídeo-vídeo (V2V) é tratada com uma estrutura única

Projeto principal e estrutura de treinamento

O modelo é composto por Deep Autoregressive Block (inferência temporal global) e Shallow Flow Block (detalhamento fino dentro do frame)
- O primeiro captura dependências de longo alcance em um espaço latente espaciotemporal
- O segundo modela os detalhes locais em cada frame
Um remover de ruído causal leve treinado com Flow-Score Matching melhora a consistência da saída
O objetivo de treinamento usa uma estrutura de perda dupla: estimação de máxima verossimilhança e Flow-Score Matching

Principais contribuições técnicas

Arquitetura Global-Local
- O bloco Transformer causal global lida com dependências espaciotemporais de longo prazo
- O bloco de fluxo raso por frame trata dos detalhes locais
- Mitiga o problema de acúmulo de erro de modelos autoregressivos em nível de pixel
Remoção de ruído baseada em Flow-Score Matching
- Treina-se em conjunto um denoiser neural causal que prevê o gradiente (score) da distribuição de probabilidade do modelo
- Possibilita refinamento em único passo sem denoiser externo não causal ou incompleto
Iteração de Jacobi orientada para vídeo
- Reestrutura o processo de geração como uma solução de sistema não linear para realizar atualizações latentes em paralelo
- Aceleração por inicialização com informações temporais de frames adjacentes e execução em pipeline

Especificações do modelo

Dados de treinamento: 70M de pares texto-vídeo, 400M de pares texto-imagem
Tamanho do modelo: 7B parâmetros, resolução de saída 480p, taxa de quadros 16fps
Graças à reversibilidade do normalizing flow, é possível executar diferentes tarefas de geração sem mudar a arquitetura ou retreinar o modelo

Resultados de geração e comparação

Texto-vídeo: gera cenas de alta qualidade, incluindo luz natural, estilo fotorrealista e macro
Imagem-vídeo: estende cenas em vídeo a partir de uma imagem de entrada, mantendo consistência temporal
Vídeo-vídeo: realiza diversas transformações, como adição de objetos, alteração de cor, troca de estilo e inpainting
Geração de vídeos longos: cria vídeos de 10 a 30 segundos por processo autoregressivo em segmentos
Experimento comparativo: apresenta melhores resultados em fidelidade visual e consistência temporal frente a NOVA e WAN-Causal

Limitações e casos de falha

A qualidade degrada em interações físicas complexas ou ações rápidas
As causas listadas incluem limitação de recursos de treinamento, dados de baixa qualidade e ausência de ajuste fino posterior (SFT·RL)
Exemplo de falhas: movimentos pouco naturais em cenas de cachorro abanando a água e de cabra pulando

Significado científico

STARFlow-V prova pela primeira vez que normalizing flow é adequado para gerar vídeo autoregressivo de alta qualidade
Oferece uma nova direção alternativa para pesquisas de geração de vídeo centradas em modelos de difusão
É visto como um caminho promissor para desenvolver world models

1 comentários

GN⁺ 2025-12-03

Comentários no Hacker News

A Apple também tem um modelo de compreensão de vídeo
Como pessoa com deficiência visual, a IA mudou completamente a minha vida. Estou realmente animado para ver como este modelo pode evoluir os recursos de acessibilidade
- É difícil ver esse tipo de relato nas manchetes, então é um comentário muito bem-vindo
- Alguns anos atrás, eles também adicionaram um recurso que detectava o choro de bebês e enviava alertas para pais com deficiência auditiva
- Pode até ser um comentário de baixa qualidade, mas sinceramente fiquei feliz e emocionado
- Fiquei curioso para saber se você poderia compartilhar mais concretamente como a IA mudou a sua vida
- É bom ver, ainda que raramente, uma notícia positiva em que a IA realmente ajuda pessoas
A licença da Apple é restrita apenas a pesquisa não comercial, então não atende à definição de open source
Por isso, acho mais correto chamar de “weights available” do que de “open source”
- Na verdade, nem os weights foram divulgados ainda
  Pelas leis dos EUA, os pesos do modelo não são considerados obras criativas, mas sim saídas de máquina, então não teriam copyright
  Por isso, eu provavelmente ignoraria esse tipo de licença sem sentido e usaria livremente
Esse conceito de “modelo com pesos abertos” me incomoda um pouco, como se fosse uma “versão open source em código de máquina do Windows”
Pelo menos a licença da Apple segue um formato clickwrap tipo MIT, com permissão para modificar e redistribuir
- Boa analogia. Levando adiante, “código de máquina fechado” seria como o modelo clássico de SaaS
  Ainda assim, poder usar o binário diretamente é melhor do que receber só SaaS
- O importante é poder executar localmente
  Open weights também difere de um simples executável por permitir retreinamento e distillation
- Acho que você talvez esteja confundindo licença de código com licença de modelo
Vi os exemplos de texto para vídeo e, sinceramente, não fiquei impressionado
Me lembrou o antigo vídeo do Will Smith comendo macarrão. Será que deixei passar alguma coisa?
- Parece estar uns 2 anos atrás do estado da arte
  Ainda assim, tem valor o fato de terem disponibilizado isso para pesquisadores experimentarem
- Se você rever o vídeo do Will Smith com espaguete, vai ver que estes exemplos estão bem melhores
  Não é perfeito, mas entre os modelos publicados talvez esteja em um nível dos mais avançados
  Só não sei se a licença é realmente aberta o suficiente
- Também tive a mesma impressão. Havia partes estranhas, como o líquido continuar subindo no copo mesmo depois de parar
Como pesquisa, este projeto mostrou novas tentativas e possibilidades
Mas, do ponto de vista de produto, os limites de recursos computacionais aparecem de forma bem clara
Isso também bate com relatos de que o CFO teria barrado a decisão do CEO de investir em infraestrutura de ML
Pela saída de JG, a grande reorganização da divisão de IA e os rumores de saída do Tim em 2026,
parece que o lado não-ML venceu a disputa política interna
Mesmo assim, a abordagem é interessante, então espero que outras pessoas consigam construir algo útil em cima disso
Segundo o artigo, este modelo é uma proposta de pesquisa para resolver o problema de erro acumulado em modelos de vídeo por diffusion
Dizem que aumentaram a consistência ao projetar o espaço latente com uma estrutura causal
Para um modelo de 7B, os resultados são bastante bons
Se a Apple lançasse um modelo no nível do wan ou do veo, imagino que teria sido treinado com dados extremamente refinados
O STARFlow-V teria sido treinado com cerca de 20 milhões de vídeos usando 96 GPUs H100
Mas o período de treinamento não é especificado
- É interessante que o Apple Intelligence tenha sido treinado com GPUs Nvidia e Linux
  Fiquei curioso se os exemplos do repositório também permitem inferência no Mac
O título está errado. O modelo ainda não foi divulgado, e o link também não diz isso
Fico me perguntando por que usaram esse título editado
O modelo parece bom, mas fico curioso sobre quais casos de uso a Apple tem em mente
Pode ser apenas algo do interesse dos pesquisadores, e não sei até que ponto a direção da pesquisa em grandes empresas vem de cima para baixo
- A Apple tem força na área de vídeo e animação por sua relação com Pixar e Disney
  Há muitas conexões que vêm desde a época do Jobs
- Provavelmente seria para adicionar efeitos generativos aos vídeos gravados no iPhone
  TikTok e Instagram provavelmente vão colocar esse tipo de recurso em breve, mas a Apple parece querer oferecer isso por conta própria
  Pessoalmente, acho que comprar o Snapchat seria uma boa estratégia
No repositório está escrito: “Pretrained checkpoints will be released soon”
Ou seja, por enquanto ainda não é open weights
Só vai ser um modelo realmente aberto quando os pesos forem de fato divulgados
Quando esse “Soon” vai acontecer, ninguém sabe

STARFlow-V: Modelo de geração de vídeo ponta a ponta baseado em normalizing flow

Visão geral do STARFlow-V

Projeto principal e estrutura de treinamento

Principais contribuições técnicas

Especificações do modelo

Resultados de geração e comparação

Limitações e casos de falha

Significado científico

Leituras relacionadas

1 comentários

Comentários no Hacker News