Lightricks LTX-2 - o primeiro modelo open source de geração integrada de áudio e vídeo
(aisparkup.com)📝 TL;DR
- LTX-2 = novo padrão para modelos multimodais open source de geração de vídeo
- Geração em tempo real de 4K + áudio em hardware de nível consumidor
- No fim de novembro, serão abertos integralmente os pesos do modelo + código + benchmarks
- Criado pela Lightricks, com artigo no arXiv já publicado
🔑 Destaques principais
-
Primeiro modelo open source de geração sincronizada de áudio e vídeo
- Sora 2 e Movie Gen são comerciais/fechados; o LTX-2 será lançado como open source completo no fim de novembro
- Geração de vídeo em 4K a 50 fps, com até 10 segundos + áudio sincronizado
-
Velocidade de geração mais rápida que tempo real
- H100: gera em apenas 2 segundos um vídeo de 5 segundos a 24 fps na resolução 768x512
- Redução de 50% no custo computacional em relação aos modelos existentes
- Também pode rodar em GPUs de nível consumidor (como a RTX 4090)
-
Inovação na arquitetura híbrida DiT
- Video-VAE: taxa de compressão de 1:192 (downscaling de 32x32x8)
- O decoder VAE faz até o denoising final → preserva detalhes finos sem necessidade de upsampling separado
- Desempenho em tempo real com stack de inferência multi-GPU
-
Controle criativo detalhado
- Conditioning com múltiplos keyframes, lógica de câmera 3D
- Fine-tuning com LoRA para manter consistência de estilo/IP e de marca
- Três modos Fast/Pro/Ultra para ajustar velocidade e qualidade
-
Ecossistema pronto para uso imediato
- Integração concluída com Fal.ai, Replicate e ComfyUI
- Testes disponíveis no API Playground
- Suporte a integração direta com ferramentas de edição, stacks de VFX e engines de jogo
Ainda não há comentários.