2 pontos por GN⁺ 2025-12-03 | 1 comentários | Compartilhar no WhatsApp
  • O primeiro gerador causal de vídeo que cria vídeos diretamente a partir de entradas de texto, imagem e vídeo usando normalizing flow
  • Processa em um único modelo treinamento ponta a ponta, estimação de verossimilhança precisa e múltiplas tarefas de geração (T2V/I2V/V2V)
  • Arquitetura Global-Local, Flow-Score Matching e iteração de Jacobi orientada para vídeo aprimoram a consistência espaciotemporal e a eficiência
  • Com um modelo de 7B parâmetros, gera vídeos em 480p·16fps, treinado em 70M de pares texto-vídeo e 400M de pares texto-imagem
  • Demonstra que normalizing flow atinge qualidade comparável a modelos baseados em difusão, comprovando a viabilidade de geração autoregressiva de vídeo de alta qualidade

Visão geral do STARFlow-V

  • STARFlow-V é um modelo de geração de vídeo causal baseado em normalizing flow que alcança qualidade visual no nível de modelos de difusão
    • Oferece simultaneamente treinamento ponta a ponta, estimação de verossimilhança precisa e suporte a múltiplas tarefas de geração
  • No campo de geração de vídeo, historicamente dominado por modelos de difusão, comprova a viabilidade de normalizing flow
  • A geração de texto-vídeo (T2V), imagem-vídeo (I2V) e vídeo-vídeo (V2V) é tratada com uma estrutura única

Projeto principal e estrutura de treinamento

  • O modelo é composto por Deep Autoregressive Block (inferência temporal global) e Shallow Flow Block (detalhamento fino dentro do frame)
    • O primeiro captura dependências de longo alcance em um espaço latente espaciotemporal
    • O segundo modela os detalhes locais em cada frame
  • Um remover de ruído causal leve treinado com Flow-Score Matching melhora a consistência da saída
  • O objetivo de treinamento usa uma estrutura de perda dupla: estimação de máxima verossimilhança e Flow-Score Matching

Principais contribuições técnicas

  • Arquitetura Global-Local
    • O bloco Transformer causal global lida com dependências espaciotemporais de longo prazo
    • O bloco de fluxo raso por frame trata dos detalhes locais
    • Mitiga o problema de acúmulo de erro de modelos autoregressivos em nível de pixel
  • Remoção de ruído baseada em Flow-Score Matching
    • Treina-se em conjunto um denoiser neural causal que prevê o gradiente (score) da distribuição de probabilidade do modelo
    • Possibilita refinamento em único passo sem denoiser externo não causal ou incompleto
  • Iteração de Jacobi orientada para vídeo
    • Reestrutura o processo de geração como uma solução de sistema não linear para realizar atualizações latentes em paralelo
    • Aceleração por inicialização com informações temporais de frames adjacentes e execução em pipeline

Especificações do modelo

  • Dados de treinamento: 70M de pares texto-vídeo, 400M de pares texto-imagem
  • Tamanho do modelo: 7B parâmetros, resolução de saída 480p, taxa de quadros 16fps
  • Graças à reversibilidade do normalizing flow, é possível executar diferentes tarefas de geração sem mudar a arquitetura ou retreinar o modelo

Resultados de geração e comparação

  • Texto-vídeo: gera cenas de alta qualidade, incluindo luz natural, estilo fotorrealista e macro
  • Imagem-vídeo: estende cenas em vídeo a partir de uma imagem de entrada, mantendo consistência temporal
  • Vídeo-vídeo: realiza diversas transformações, como adição de objetos, alteração de cor, troca de estilo e inpainting
  • Geração de vídeos longos: cria vídeos de 10 a 30 segundos por processo autoregressivo em segmentos
  • Experimento comparativo: apresenta melhores resultados em fidelidade visual e consistência temporal frente a NOVA e WAN-Causal

Limitações e casos de falha

  • A qualidade degrada em interações físicas complexas ou ações rápidas
  • As causas listadas incluem limitação de recursos de treinamento, dados de baixa qualidade e ausência de ajuste fino posterior (SFT·RL)
  • Exemplo de falhas: movimentos pouco naturais em cenas de cachorro abanando a água e de cabra pulando

Significado científico

  • STARFlow-V prova pela primeira vez que normalizing flow é adequado para gerar vídeo autoregressivo de alta qualidade
  • Oferece uma nova direção alternativa para pesquisas de geração de vídeo centradas em modelos de difusão
  • É visto como um caminho promissor para desenvolver world models

1 comentários

 
GN⁺ 2025-12-03
Comentários no Hacker News
  • A Apple também tem um modelo de compreensão de vídeo
    Como pessoa com deficiência visual, a IA mudou completamente a minha vida. Estou realmente animado para ver como este modelo pode evoluir os recursos de acessibilidade

    • É difícil ver esse tipo de relato nas manchetes, então é um comentário muito bem-vindo
    • Alguns anos atrás, eles também adicionaram um recurso que detectava o choro de bebês e enviava alertas para pais com deficiência auditiva
    • Pode até ser um comentário de baixa qualidade, mas sinceramente fiquei feliz e emocionado
    • Fiquei curioso para saber se você poderia compartilhar mais concretamente como a IA mudou a sua vida
    • É bom ver, ainda que raramente, uma notícia positiva em que a IA realmente ajuda pessoas
  • A licença da Apple é restrita apenas a pesquisa não comercial, então não atende à definição de open source
    Por isso, acho mais correto chamar de “weights available” do que de “open source”

    • Na verdade, nem os weights foram divulgados ainda
      Pelas leis dos EUA, os pesos do modelo não são considerados obras criativas, mas sim saídas de máquina, então não teriam copyright
      Por isso, eu provavelmente ignoraria esse tipo de licença sem sentido e usaria livremente
  • Esse conceito de “modelo com pesos abertos” me incomoda um pouco, como se fosse uma “versão open source em código de máquina do Windows”
    Pelo menos a licença da Apple segue um formato clickwrap tipo MIT, com permissão para modificar e redistribuir

    • Boa analogia. Levando adiante, “código de máquina fechado” seria como o modelo clássico de SaaS
      Ainda assim, poder usar o binário diretamente é melhor do que receber só SaaS
    • O importante é poder executar localmente
      Open weights também difere de um simples executável por permitir retreinamento e distillation
    • Acho que você talvez esteja confundindo licença de código com licença de modelo
  • Vi os exemplos de texto para vídeo e, sinceramente, não fiquei impressionado
    Me lembrou o antigo vídeo do Will Smith comendo macarrão. Será que deixei passar alguma coisa?

    • Parece estar uns 2 anos atrás do estado da arte
      Ainda assim, tem valor o fato de terem disponibilizado isso para pesquisadores experimentarem
    • Se você rever o vídeo do Will Smith com espaguete, vai ver que estes exemplos estão bem melhores
      Não é perfeito, mas entre os modelos publicados talvez esteja em um nível dos mais avançados
      Só não sei se a licença é realmente aberta o suficiente
    • Também tive a mesma impressão. Havia partes estranhas, como o líquido continuar subindo no copo mesmo depois de parar
  • Como pesquisa, este projeto mostrou novas tentativas e possibilidades
    Mas, do ponto de vista de produto, os limites de recursos computacionais aparecem de forma bem clara
    Isso também bate com relatos de que o CFO teria barrado a decisão do CEO de investir em infraestrutura de ML
    Pela saída de JG, a grande reorganização da divisão de IA e os rumores de saída do Tim em 2026,
    parece que o lado não-ML venceu a disputa política interna
    Mesmo assim, a abordagem é interessante, então espero que outras pessoas consigam construir algo útil em cima disso

  • Segundo o artigo, este modelo é uma proposta de pesquisa para resolver o problema de erro acumulado em modelos de vídeo por diffusion
    Dizem que aumentaram a consistência ao projetar o espaço latente com uma estrutura causal
    Para um modelo de 7B, os resultados são bastante bons
    Se a Apple lançasse um modelo no nível do wan ou do veo, imagino que teria sido treinado com dados extremamente refinados

  • O STARFlow-V teria sido treinado com cerca de 20 milhões de vídeos usando 96 GPUs H100
    Mas o período de treinamento não é especificado

    • É interessante que o Apple Intelligence tenha sido treinado com GPUs Nvidia e Linux
      Fiquei curioso se os exemplos do repositório também permitem inferência no Mac
  • O título está errado. O modelo ainda não foi divulgado, e o link também não diz isso
    Fico me perguntando por que usaram esse título editado

  • O modelo parece bom, mas fico curioso sobre quais casos de uso a Apple tem em mente
    Pode ser apenas algo do interesse dos pesquisadores, e não sei até que ponto a direção da pesquisa em grandes empresas vem de cima para baixo

    • A Apple tem força na área de vídeo e animação por sua relação com Pixar e Disney
      Há muitas conexões que vêm desde a época do Jobs
    • Provavelmente seria para adicionar efeitos generativos aos vídeos gravados no iPhone
      TikTok e Instagram provavelmente vão colocar esse tipo de recurso em breve, mas a Apple parece querer oferecer isso por conta própria
      Pessoalmente, acho que comprar o Snapchat seria uma boa estratégia
  • No repositório está escrito: “Pretrained checkpoints will be released soon
    Ou seja, por enquanto ainda não é open weights
    Só vai ser um modelo realmente aberto quando os pesos forem de fato divulgados
    Quando esse “Soon” vai acontecer, ninguém sabe