- Ovi, desenvolvido pela Character AI, é um modelo de IA que gera áudio e vídeo simultaneamente a partir de entrada de texto ou imagem
- O Ovi combina um ramo de áudio de 5B de parâmetros, treinado internamente, com um ramo de vídeo baseado no Wan2.2 para gerar conteúdo audiovisual sincronizado e de alta qualidade
- O modelo foi treinado em resolução 720×720, mas gera resultados naturais também em resoluções de 960×960 ou superiores, com suporte a várias proporções de tela (9:16, 16:9 etc.)
- Oferece várias opções de execução e recursos de otimização, como Gradio UI, integração com ComfyUI (WIP), inferência multi-GPU e quantização qint8/fp8
- Este projeto é um exemplo recente do avanço em geração de texto para vídeo (T2V) e imagem para vídeo (I2V), propondo um novo padrão para geração integrada de áudio e vídeo
Visão geral do Ovi
- Ovi é um modelo generativo cross-modal desenvolvido em conjunto pela Character AI e por pesquisadores da Yale University, um sistema que gera simultaneamente áudio e vídeo sincronizados a partir de entradas de texto ou texto+imagem
- A arquitetura do modelo é chamada de “Twin Backbone Cross-Modal Fusion”, usando um método que treina e funde em paralelo os ramos de áudio e vídeo
- O líder do projeto é Weimin Wang, com contribuições de Chetwin Low e Calder Katyal
- É apresentado como um modelo semelhante ao Veo-3 e utiliza o dataset interno de áudio da Character AI para pré-treinar do zero um ramo de áudio com 5B de parâmetros
- Os vídeos gerados têm como padrão 5 segundos de duração, 24 FPS e resolução 720×720, com suporte a várias proporções como 9:16, 16:9 e 1:1
Principais recursos e características
- 🎬 Geração de vídeo+áudio: gera áudio e vídeo ao mesmo tempo a partir de entrada de texto ou imagem
- 🎵 Ramo de áudio de alta qualidade: inclui um ramo de áudio treinado em um grande dataset próprio
- 📝 Entrada flexível: suporta tanto texto isolado quanto texto+imagem
- ⏱️ Geração de vídeo de 5 segundos: cria vídeos curtos de 5 segundos a 24 FPS
- 🎯 Suporte a alta resolução: pode gerar resultados naturais também em resoluções de 960×960 ou superiores
- Exemplos incluem vídeos em formatos como 1280×704, 1504×608 e 1344×704
- 🚀 Capacidade de upscaling: embora o treinamento tenha sido feito em 720×720, mantém consistência temporal e espacial também em alta resolução
Plataformas e demos disponíveis
- Em Wavespeed.ai, é possível gerar conteúdo de texto→vídeo e imagem→vídeo
- Há também uma demo no HuggingFace Spaces
- Integração com ComfyUI (WIP): o modelo Ovi pode ser integrado a workflows via
ComfyUI-WanVideoWrapper
Treinamento e desempenho
- Resolução de treinamento: 720×720
- Escalonamento de resolução na inferência: suporte a 960×960 e a várias proporções
- Manutenção da consistência temporal: implementa transições naturais entre frames
- Qualidade de sincronização áudio-vídeo: a qualidade da sincronização pode ser controlada ajustando a escala de guidance do áudio
Execução e configuração
- Procedimento de instalação
- Instalar PyTorch 2.6.0, Flash Attention e as dependências de
requirements.txt
- Baixar os checkpoints com
download_weights.py (incluindo T5, VAE e MMAudio)
- Se a GPU tiver 24GB de VRAM, é possível usar as versões quantizadas
fp8 ou qint8
- Arquivo de configuração de inferência:
ovi/configs/inference/inference_fusion.yaml
- Principais itens de configuração:
num_steps: número de etapas de denoising (30~50)
audio_guidance_scale, video_guidance_scale: intensidade da sincronização entre áudio e vídeo
sp_size: tamanho do paralelismo de sequência (configurar igual ao número de GPUs)
cpu_offload: modo para economizar VRAM da GPU
fp8: permite execução em ambientes com 24GB de VRAM
- Exemplos de execução de inferência
- GPU única:
python3 inference.py --config-file ...
- Multi-GPU:
torchrun --nnodes 1 --nproc_per_node 8 inference.py ...
Requisitos de desempenho e memória
- O modelo base exige no mínimo 32GB de VRAM, podendo rodar com 24GB no modo fp8
- FlashAttention-3 melhora a velocidade de processamento quando ativado
- Com processamento paralelo por sequência, o tempo de processamento fica na faixa de 40~55 segundos ao usar 4~8 GPUs
- Com CPU offloading, é possível economizar VRAM, mas o tempo de processamento aumenta cerca de 20 segundos
Execução da interface Gradio
- É possível iniciar uma interface baseada em Gradio com um comando simples
python3 gradio_app.py
- Suporta diferentes ambientes com as opções
--cpu_offload, --use_image_gen, --qint8 e --fp8
- No modo I2V, o modelo de geração de imagem para criar o primeiro frame é ativado automaticamente
Estrutura de prompt e exemplos
- Text-to-Audio-Video (T2AV):
example_prompts/gpt_examples_t2v.csv
- Image-to-Audio-Video (I2AV):
example_prompts/gpt_examples_i2v.csv
- Uso de tags especiais
...: texto para conversão em fala
...: descrição de som de fundo e efeitos sonoros
- Geração de prompts com GPT
- Com base nos CSVs de exemplo, é possível pedir ao GPT para ajustar falas para um tema específico (ex.: “confronto entre IA e humanos”)
- O prompt ajustado pode então ser inserido no Ovi para gerar vídeos temáticos
Planos futuros (Todo List)
- Divulgação futura do artigo de pesquisa e do site de demo
- Publicação de checkpoint do modelo 11B e de código de inferência multi-GPU
- Implementação planejada de pesos fp8, melhorias de eficiência no paralelismo de sequência e inferência com sharding FSDP
- Pesquisa em andamento sobre fine-tuning com dados em alta resolução e melhoria de desempenho baseada em RL
- Planejamento de desenvolvimento para geração de vídeos longos, condicionamento por voz de referência e modelo distilled para acelerar a inferência
Agradecimentos técnicos e colaboração
- Wan2.2: usado na inicialização do ramo de vídeo
- MMAudio: reutilizado como VAE de áudio
- Contribuidores: @rkfg (otimização fp8), @gluttony-10 (quantização qint8)
- Propostas de colaboração e contato: é possível entrar em contato com Weimin Wang
Informações de citação
- Artigo: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
- arXiv: https://arxiv.org/abs/2510.01284
- BibTeX disponível; a citação é recomendada em caso de uso na pesquisa
Metadados do projeto
- Licença: Apache-2.0
- Composição de linguagens: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
- Estatísticas do GitHub: ★955, forks 92, issues 20, PRs 2
- Desenvolvedores: equipe da Character AI, pesquisadores da Yale University
1 comentários
Opiniões no Hacker News
Há meses venho mexendo com ferramentas de geração por IA, e é impressionante como cada uma delas está sendo rapidamente integrada em uma só e ficando utilizável até em máquina local
Usei o Ovi desde a semana passada e foi bem divertido. Conteúdo gerado por IA é meio que uma máquina caça-níquel: mesmo com um bom prompt, o resultado às vezes sai péssimo, mas depois de várias tentativas aparece algo aproveitável
Fiz vídeos com aparência e som bem convincentes usando I2V e T2V. O T2V às vezes parece ter qualidade de TV dos anos 90, mas isso acaba até passando uma sensação maior de realismo
Usando o Flux SPRO como fonte de imagem, saem vídeos bem realistas. Minha GPU é uma 5090, então levaram cerca de 4 a 5 minutos para gerar um clipe de 5 segundos
Parece que o modelo de vídeo é baseado no Wan 2.2
Tem havido bastante movimentação recente em torno do Wan, e é bom ver surgir um modelo aberto e flexível para enfrentar os modelos fechados das gigantes cheias de capital, como OpenAI e Runway
Também existe o Wan 2.5, mas ele é roteado anonimamente por um provedor oficial. É muito mais barato do que opções mediadas como Kling, Veo e Sora
Já trabalhei no Ovi da Nokia. Na época, o Ovi era tipo um GSuite para celulares Nokia, e a explicação oficial era “Ovi significa porta em finlandês”, mas internamente a piada era que significava “jardim de infância” em húngaro. Não consegui descobrir a origem do nome deste Ovi
Mas acabou ruindo, preso à falta de estratégia de marca e a políticas fracassadas de software para dispositivos. Acho que foi totalmente encerrado por volta de 2013. Nessa época eu já tinha saído da empresa
Meu ouvido talvez seja de uma geração anterior ao AutoTune, então ainda percebo no áudio traços de afinação perfeita e compressão/expansão dinâmica (
companding)Em especial, soa parecido com a voz do personagem Machine Head da série Invincible
Ainda assim, no geral, é um trabalho excelente
O projeto em si é interessante, mas ainda não tenho muita certeza sobre a utilidade prática de conteúdo audiovisual generativo
No momento, parece trazer mais incômodo do que benefício
Nesse ritmo, parece possível que em poucos meses curtas-metragens de alta qualidade passem a ser feitos inteiramente com geração
Fiquei curioso se esses projetos têm relação entre si, então comparei este tópico com este tópico
Hoje isso ficou muito mais fácil graças às ferramentas de codificação por IA, que simplificam bastante a geração automática de landing pages
No caso de I2V, se você tiver uma GPU NVIDIA 4070 ou superior e VRAM suficiente, dá para obter um rascunho utilizável em 1 a 2 minutos na resolução 440x440
O T2V ainda só mantém qualidade estável perto da resolução em que foi treinado. Mesmo assim, nas resoluções conhecidas do Wan, às vezes saem bons resultados
Com CUDA 12.8 ou superior, Torch 2.8 ou superior, e usando SageAttention em vez de Flash 2, a qualidade melhora de forma perceptível
É um avanço interessante, mas é uma pena que uma empresa como a CAI tenha ficado com isso
usando IA contra jovens e pessoas solitárias