- O primeiro gerador causal de vídeo que cria vídeos diretamente a partir de entradas de texto, imagem e vídeo usando normalizing flow
- Processa em um único modelo treinamento ponta a ponta, estimação de verossimilhança precisa e múltiplas tarefas de geração (T2V/I2V/V2V)
- Arquitetura Global-Local, Flow-Score Matching e iteração de Jacobi orientada para vídeo aprimoram a consistência espaciotemporal e a eficiência
- Com um modelo de 7B parâmetros, gera vídeos em 480p·16fps, treinado em 70M de pares texto-vídeo e 400M de pares texto-imagem
- Demonstra que normalizing flow atinge qualidade comparável a modelos baseados em difusão, comprovando a viabilidade de geração autoregressiva de vídeo de alta qualidade
Visão geral do STARFlow-V
- STARFlow-V é um modelo de geração de vídeo causal baseado em normalizing flow que alcança qualidade visual no nível de modelos de difusão
- Oferece simultaneamente treinamento ponta a ponta, estimação de verossimilhança precisa e suporte a múltiplas tarefas de geração
- No campo de geração de vídeo, historicamente dominado por modelos de difusão, comprova a viabilidade de normalizing flow
- A geração de texto-vídeo (T2V), imagem-vídeo (I2V) e vídeo-vídeo (V2V) é tratada com uma estrutura única
Projeto principal e estrutura de treinamento
- O modelo é composto por Deep Autoregressive Block (inferência temporal global) e Shallow Flow Block (detalhamento fino dentro do frame)
- O primeiro captura dependências de longo alcance em um espaço latente espaciotemporal
- O segundo modela os detalhes locais em cada frame
- Um remover de ruído causal leve treinado com Flow-Score Matching melhora a consistência da saída
- O objetivo de treinamento usa uma estrutura de perda dupla: estimação de máxima verossimilhança e Flow-Score Matching
Principais contribuições técnicas
- Arquitetura Global-Local
- O bloco Transformer causal global lida com dependências espaciotemporais de longo prazo
- O bloco de fluxo raso por frame trata dos detalhes locais
- Mitiga o problema de acúmulo de erro de modelos autoregressivos em nível de pixel
- Remoção de ruído baseada em Flow-Score Matching
- Treina-se em conjunto um denoiser neural causal que prevê o gradiente (score) da distribuição de probabilidade do modelo
- Possibilita refinamento em único passo sem denoiser externo não causal ou incompleto
- Iteração de Jacobi orientada para vídeo
- Reestrutura o processo de geração como uma solução de sistema não linear para realizar atualizações latentes em paralelo
- Aceleração por inicialização com informações temporais de frames adjacentes e execução em pipeline
Especificações do modelo
- Dados de treinamento: 70M de pares texto-vídeo, 400M de pares texto-imagem
- Tamanho do modelo: 7B parâmetros, resolução de saída 480p, taxa de quadros 16fps
- Graças à reversibilidade do normalizing flow, é possível executar diferentes tarefas de geração sem mudar a arquitetura ou retreinar o modelo
Resultados de geração e comparação
- Texto-vídeo: gera cenas de alta qualidade, incluindo luz natural, estilo fotorrealista e macro
- Imagem-vídeo: estende cenas em vídeo a partir de uma imagem de entrada, mantendo consistência temporal
- Vídeo-vídeo: realiza diversas transformações, como adição de objetos, alteração de cor, troca de estilo e inpainting
- Geração de vídeos longos: cria vídeos de 10 a 30 segundos por processo autoregressivo em segmentos
- Experimento comparativo: apresenta melhores resultados em fidelidade visual e consistência temporal frente a NOVA e WAN-Causal
Limitações e casos de falha
- A qualidade degrada em interações físicas complexas ou ações rápidas
- As causas listadas incluem limitação de recursos de treinamento, dados de baixa qualidade e ausência de ajuste fino posterior (SFT·RL)
- Exemplo de falhas: movimentos pouco naturais em cenas de cachorro abanando a água e de cabra pulando
Significado científico
- STARFlow-V prova pela primeira vez que normalizing flow é adequado para gerar vídeo autoregressivo de alta qualidade
- Oferece uma nova direção alternativa para pesquisas de geração de vídeo centradas em modelos de difusão
- É visto como um caminho promissor para desenvolver world models
1 comentários
Comentários no Hacker News
A Apple também tem um modelo de compreensão de vídeo
Como pessoa com deficiência visual, a IA mudou completamente a minha vida. Estou realmente animado para ver como este modelo pode evoluir os recursos de acessibilidade
A licença da Apple é restrita apenas a pesquisa não comercial, então não atende à definição de open source
Por isso, acho mais correto chamar de “weights available” do que de “open source”
Pelas leis dos EUA, os pesos do modelo não são considerados obras criativas, mas sim saídas de máquina, então não teriam copyright
Por isso, eu provavelmente ignoraria esse tipo de licença sem sentido e usaria livremente
Esse conceito de “modelo com pesos abertos” me incomoda um pouco, como se fosse uma “versão open source em código de máquina do Windows”
Pelo menos a licença da Apple segue um formato clickwrap tipo MIT, com permissão para modificar e redistribuir
Ainda assim, poder usar o binário diretamente é melhor do que receber só SaaS
Open weights também difere de um simples executável por permitir retreinamento e distillation
Vi os exemplos de texto para vídeo e, sinceramente, não fiquei impressionado
Me lembrou o antigo vídeo do Will Smith comendo macarrão. Será que deixei passar alguma coisa?
Ainda assim, tem valor o fato de terem disponibilizado isso para pesquisadores experimentarem
Não é perfeito, mas entre os modelos publicados talvez esteja em um nível dos mais avançados
Só não sei se a licença é realmente aberta o suficiente
Como pesquisa, este projeto mostrou novas tentativas e possibilidades
Mas, do ponto de vista de produto, os limites de recursos computacionais aparecem de forma bem clara
Isso também bate com relatos de que o CFO teria barrado a decisão do CEO de investir em infraestrutura de ML
Pela saída de JG, a grande reorganização da divisão de IA e os rumores de saída do Tim em 2026,
parece que o lado não-ML venceu a disputa política interna
Mesmo assim, a abordagem é interessante, então espero que outras pessoas consigam construir algo útil em cima disso
Segundo o artigo, este modelo é uma proposta de pesquisa para resolver o problema de erro acumulado em modelos de vídeo por diffusion
Dizem que aumentaram a consistência ao projetar o espaço latente com uma estrutura causal
Para um modelo de 7B, os resultados são bastante bons
Se a Apple lançasse um modelo no nível do wan ou do veo, imagino que teria sido treinado com dados extremamente refinados
O STARFlow-V teria sido treinado com cerca de 20 milhões de vídeos usando 96 GPUs H100
Mas o período de treinamento não é especificado
Fiquei curioso se os exemplos do repositório também permitem inferência no Mac
O título está errado. O modelo ainda não foi divulgado, e o link também não diz isso
Fico me perguntando por que usaram esse título editado
O modelo parece bom, mas fico curioso sobre quais casos de uso a Apple tem em mente
Pode ser apenas algo do interesse dos pesquisadores, e não sei até que ponto a direção da pesquisa em grandes empresas vem de cima para baixo
Há muitas conexões que vêm desde a época do Jobs
TikTok e Instagram provavelmente vão colocar esse tipo de recurso em breve, mas a Apple parece querer oferecer isso por conta própria
Pessoalmente, acho que comprar o Snapchat seria uma boa estratégia
No repositório está escrito: “Pretrained checkpoints will be released soon”
Ou seja, por enquanto ainda não é open weights
Só vai ser um modelo realmente aberto quando os pesos forem de fato divulgados
Quando esse “Soon” vai acontecer, ninguém sabe