Ovi - Fusão cruzada multimodal com backbone duplo para geração de áudio e vídeo

(github.com/character-ai)

1 pontos por GN⁺ 2025-10-24 | 1 comentários | Compartilhar no WhatsApp

Ovi, desenvolvido pela Character AI, é um modelo de IA que gera áudio e vídeo simultaneamente a partir de entrada de texto ou imagem
O Ovi combina um ramo de áudio de 5B de parâmetros, treinado internamente, com um ramo de vídeo baseado no Wan2.2 para gerar conteúdo audiovisual sincronizado e de alta qualidade
O modelo foi treinado em resolução 720×720, mas gera resultados naturais também em resoluções de 960×960 ou superiores, com suporte a várias proporções de tela (9:16, 16:9 etc.)
Oferece várias opções de execução e recursos de otimização, como Gradio UI, integração com ComfyUI (WIP), inferência multi-GPU e quantização qint8/fp8
Este projeto é um exemplo recente do avanço em geração de texto para vídeo (T2V) e imagem para vídeo (I2V), propondo um novo padrão para geração integrada de áudio e vídeo

Visão geral do Ovi

Ovi é um modelo generativo cross-modal desenvolvido em conjunto pela Character AI e por pesquisadores da Yale University, um sistema que gera simultaneamente áudio e vídeo sincronizados a partir de entradas de texto ou texto+imagem
- A arquitetura do modelo é chamada de “Twin Backbone Cross-Modal Fusion”, usando um método que treina e funde em paralelo os ramos de áudio e vídeo
- O líder do projeto é Weimin Wang, com contribuições de Chetwin Low e Calder Katyal
É apresentado como um modelo semelhante ao Veo-3 e utiliza o dataset interno de áudio da Character AI para pré-treinar do zero um ramo de áudio com 5B de parâmetros
Os vídeos gerados têm como padrão 5 segundos de duração, 24 FPS e resolução 720×720, com suporte a várias proporções como 9:16, 16:9 e 1:1

Principais recursos e características

🎬 Geração de vídeo+áudio: gera áudio e vídeo ao mesmo tempo a partir de entrada de texto ou imagem
🎵 Ramo de áudio de alta qualidade: inclui um ramo de áudio treinado em um grande dataset próprio
📝 Entrada flexível: suporta tanto texto isolado quanto texto+imagem
⏱️ Geração de vídeo de 5 segundos: cria vídeos curtos de 5 segundos a 24 FPS
🎯 Suporte a alta resolução: pode gerar resultados naturais também em resoluções de 960×960 ou superiores
- Exemplos incluem vídeos em formatos como 1280×704, 1504×608 e 1344×704
🚀 Capacidade de upscaling: embora o treinamento tenha sido feito em 720×720, mantém consistência temporal e espacial também em alta resolução

Plataformas e demos disponíveis

Em Wavespeed.ai, é possível gerar conteúdo de texto→vídeo e imagem→vídeo
- https://wavespeed.ai/models/character-ai/ovi/image-to-video
- https://wavespeed.ai/models/character-ai/ovi/text-to-video
Há também uma demo no HuggingFace Spaces
- https://huggingface.co/spaces/akhaliq/Ovi
Integração com ComfyUI (WIP): o modelo Ovi pode ser integrado a workflows via ComfyUI-WanVideoWrapper

Treinamento e desempenho

Resolução de treinamento: 720×720
Escalonamento de resolução na inferência: suporte a 960×960 e a várias proporções
Manutenção da consistência temporal: implementa transições naturais entre frames
Qualidade de sincronização áudio-vídeo: a qualidade da sincronização pode ser controlada ajustando a escala de guidance do áudio

Execução e configuração

Procedimento de instalação
- Instalar PyTorch 2.6.0, Flash Attention e as dependências de requirements.txt
- Baixar os checkpoints com download_weights.py (incluindo T5, VAE e MMAudio)
- Se a GPU tiver 24GB de VRAM, é possível usar as versões quantizadas fp8 ou qint8
Arquivo de configuração de inferência: ovi/configs/inference/inference_fusion.yaml
- Principais itens de configuração:
  - num_steps: número de etapas de denoising (30~50)
  - audio_guidance_scale, video_guidance_scale: intensidade da sincronização entre áudio e vídeo
  - sp_size: tamanho do paralelismo de sequência (configurar igual ao número de GPUs)
  - cpu_offload: modo para economizar VRAM da GPU
  - fp8: permite execução em ambientes com 24GB de VRAM
Exemplos de execução de inferência
- GPU única: python3 inference.py --config-file ...
- Multi-GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Requisitos de desempenho e memória

O modelo base exige no mínimo 32GB de VRAM, podendo rodar com 24GB no modo fp8
FlashAttention-3 melhora a velocidade de processamento quando ativado
Com processamento paralelo por sequência, o tempo de processamento fica na faixa de 40~55 segundos ao usar 4~8 GPUs
Com CPU offloading, é possível economizar VRAM, mas o tempo de processamento aumenta cerca de 20 segundos

Execução da interface Gradio

É possível iniciar uma interface baseada em Gradio com um comando simples
- python3 gradio_app.py
- Suporta diferentes ambientes com as opções --cpu_offload, --use_image_gen, --qint8 e --fp8
No modo I2V, o modelo de geração de imagem para criar o primeiro frame é ativado automaticamente

Estrutura de prompt e exemplos

Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
Uso de tags especiais
- ...: texto para conversão em fala
- ...: descrição de som de fundo e efeitos sonoros
Geração de prompts com GPT
- Com base nos CSVs de exemplo, é possível pedir ao GPT para ajustar falas para um tema específico (ex.: “confronto entre IA e humanos”)
- O prompt ajustado pode então ser inserido no Ovi para gerar vídeos temáticos

Planos futuros (Todo List)

Divulgação futura do artigo de pesquisa e do site de demo
Publicação de checkpoint do modelo 11B e de código de inferência multi-GPU
Implementação planejada de pesos fp8, melhorias de eficiência no paralelismo de sequência e inferência com sharding FSDP
Pesquisa em andamento sobre fine-tuning com dados em alta resolução e melhoria de desempenho baseada em RL
Planejamento de desenvolvimento para geração de vídeos longos, condicionamento por voz de referência e modelo distilled para acelerar a inferência

Agradecimentos técnicos e colaboração

Wan2.2: usado na inicialização do ramo de vídeo
MMAudio: reutilizado como VAE de áudio
Contribuidores: @rkfg (otimização fp8), @gluttony-10 (quantização qint8)
Propostas de colaboração e contato: é possível entrar em contato com Weimin Wang

Informações de citação

Artigo: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
arXiv: https://arxiv.org/abs/2510.01284
BibTeX disponível; a citação é recomendada em caso de uso na pesquisa

Metadados do projeto

Licença: Apache-2.0
Composição de linguagens: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
Estatísticas do GitHub: ★955, forks 92, issues 20, PRs 2
Desenvolvedores: equipe da Character AI, pesquisadores da Yale University

1 comentários

GN⁺ 2025-10-24

Opiniões no Hacker News

Há meses venho mexendo com ferramentas de geração por IA, e é impressionante como cada uma delas está sendo rapidamente integrada em uma só e ficando utilizável até em máquina local
Usei o Ovi desde a semana passada e foi bem divertido. Conteúdo gerado por IA é meio que uma máquina caça-níquel: mesmo com um bom prompt, o resultado às vezes sai péssimo, mas depois de várias tentativas aparece algo aproveitável
Fiz vídeos com aparência e som bem convincentes usando I2V e T2V. O T2V às vezes parece ter qualidade de TV dos anos 90, mas isso acaba até passando uma sensação maior de realismo
Usando o Flux SPRO como fonte de imagem, saem vídeos bem realistas. Minha GPU é uma 5090, então levaram cerca de 4 a 5 minutos para gerar um clipe de 5 segundos
Parece que o modelo de vídeo é baseado no Wan 2.2
Tem havido bastante movimentação recente em torno do Wan, e é bom ver surgir um modelo aberto e flexível para enfrentar os modelos fechados das gigantes cheias de capital, como OpenAI e Runway
- Os modelos de vídeo open source com foco em privacidade oferecidos pela VeniceAI são o principal destaque. O Ovi suporta imagem→vídeo, o Wan 2.1 suporta imagem→vídeo, e o Wan 2.2 suporta texto→vídeo
  Também existe o Wan 2.5, mas ele é roteado anonimamente por um provedor oficial. É muito mais barato do que opções mediadas como Kling, Veo e Sora
- A discussão relacionada também apareceu no tópico Wan – Open-source alternative to VEO 3
- E a Google também está envolvida nisso
Já trabalhei no Ovi da Nokia. Na época, o Ovi era tipo um GSuite para celulares Nokia, e a explicação oficial era “Ovi significa porta em finlandês”, mas internamente a piada era que significava “jardim de infância” em húngaro. Não consegui descobrir a origem do nome deste Ovi
- Eu também trabalhei em um projeto relacionado ao Ovi. Nas primeiras reuniões na sede em Helsinque, ouvi executivos falando em mirar a Google como concorrente, e foi uma tentativa bem ousada
  Mas acabou ruindo, preso à falta de estratégia de marca e a políticas fracassadas de software para dispositivos. Acho que foi totalmente encerrado por volta de 2013. Nessa época eu já tinha saído da empresa
Meu ouvido talvez seja de uma geração anterior ao AutoTune, então ainda percebo no áudio traços de afinação perfeita e compressão/expansão dinâmica (companding)
Em especial, soa parecido com a voz do personagem Machine Head da série Invincible
Ainda assim, no geral, é um trabalho excelente
O projeto em si é interessante, mas ainda não tenho muita certeza sobre a utilidade prática de conteúdo audiovisual generativo
No momento, parece trazer mais incômodo do que benefício
Nesse ritmo, parece possível que em poucos meses curtas-metragens de alta qualidade passem a ser feitos inteiramente com geração
- Mas, na mesma medida, também devem surgir casos de uso abusivo de deepfake arruinando a vida de pessoas
- Talvez chegue um futuro de festas de prompt, em que amigos se reúnem, cada um escreve um prompt e depois todos assistem juntos a um filme montado a partir disso. Só de imaginar já é engraçado
- Ainda assim, acho mais provável aparecer um longa-metragem antes de um curta, porque quanto mais curto o vídeo, mais difícil é atingir um nível alto de acabamento
Fiquei curioso se esses projetos têm relação entre si, então comparei este tópico com este tópico
- Quando surge um novo modelo open weights, oportunistas registram domínios com esse nome e tentam ganhar dinheiro com SEO
  Hoje isso ficou muito mais fácil graças às ferramentas de codificação por IA, que simplificam bastante a geração automática de landing pages
No caso de I2V, se você tiver uma GPU NVIDIA 4070 ou superior e VRAM suficiente, dá para obter um rascunho utilizável em 1 a 2 minutos na resolução 440x440
O T2V ainda só mantém qualidade estável perto da resolução em que foi treinado. Mesmo assim, nas resoluções conhecidas do Wan, às vezes saem bons resultados
Com CUDA 12.8 ou superior, Torch 2.8 ou superior, e usando SageAttention em vez de Flash 2, a qualidade melhora de forma perceptível
É um avanço interessante, mas é uma pena que uma empresa como a CAI tenha ficado com isso
usando IA contra jovens e pessoas solitárias

Ovi - Fusão cruzada multimodal com backbone duplo para geração de áudio e vídeo

Visão geral do Ovi

Principais recursos e características

Plataformas e demos disponíveis

Treinamento e desempenho

Execução e configuração

Requisitos de desempenho e memória

Execução da interface Gradio

Estrutura de prompt e exemplos

Planos futuros (Todo List)

Agradecimentos técnicos e colaboração

Informações de citação

Metadados do projeto

Leituras relacionadas

1 comentários

Opiniões no Hacker News