1 pontos por GN⁺ 2025-10-24 | 1 comentários | Compartilhar no WhatsApp
  • Ovi, desenvolvido pela Character AI, é um modelo de IA que gera áudio e vídeo simultaneamente a partir de entrada de texto ou imagem
  • O Ovi combina um ramo de áudio de 5B de parâmetros, treinado internamente, com um ramo de vídeo baseado no Wan2.2 para gerar conteúdo audiovisual sincronizado e de alta qualidade
  • O modelo foi treinado em resolução 720×720, mas gera resultados naturais também em resoluções de 960×960 ou superiores, com suporte a várias proporções de tela (9:16, 16:9 etc.)
  • Oferece várias opções de execução e recursos de otimização, como Gradio UI, integração com ComfyUI (WIP), inferência multi-GPU e quantização qint8/fp8
  • Este projeto é um exemplo recente do avanço em geração de texto para vídeo (T2V) e imagem para vídeo (I2V), propondo um novo padrão para geração integrada de áudio e vídeo

Visão geral do Ovi

  • Ovi é um modelo generativo cross-modal desenvolvido em conjunto pela Character AI e por pesquisadores da Yale University, um sistema que gera simultaneamente áudio e vídeo sincronizados a partir de entradas de texto ou texto+imagem
    • A arquitetura do modelo é chamada de “Twin Backbone Cross-Modal Fusion”, usando um método que treina e funde em paralelo os ramos de áudio e vídeo
    • O líder do projeto é Weimin Wang, com contribuições de Chetwin Low e Calder Katyal
  • É apresentado como um modelo semelhante ao Veo-3 e utiliza o dataset interno de áudio da Character AI para pré-treinar do zero um ramo de áudio com 5B de parâmetros
  • Os vídeos gerados têm como padrão 5 segundos de duração, 24 FPS e resolução 720×720, com suporte a várias proporções como 9:16, 16:9 e 1:1

Principais recursos e características

  • 🎬 Geração de vídeo+áudio: gera áudio e vídeo ao mesmo tempo a partir de entrada de texto ou imagem
  • 🎵 Ramo de áudio de alta qualidade: inclui um ramo de áudio treinado em um grande dataset próprio
  • 📝 Entrada flexível: suporta tanto texto isolado quanto texto+imagem
  • ⏱️ Geração de vídeo de 5 segundos: cria vídeos curtos de 5 segundos a 24 FPS
  • 🎯 Suporte a alta resolução: pode gerar resultados naturais também em resoluções de 960×960 ou superiores
    • Exemplos incluem vídeos em formatos como 1280×704, 1504×608 e 1344×704
  • 🚀 Capacidade de upscaling: embora o treinamento tenha sido feito em 720×720, mantém consistência temporal e espacial também em alta resolução

Plataformas e demos disponíveis

Treinamento e desempenho

  • Resolução de treinamento: 720×720
  • Escalonamento de resolução na inferência: suporte a 960×960 e a várias proporções
  • Manutenção da consistência temporal: implementa transições naturais entre frames
  • Qualidade de sincronização áudio-vídeo: a qualidade da sincronização pode ser controlada ajustando a escala de guidance do áudio

Execução e configuração

  • Procedimento de instalação
    • Instalar PyTorch 2.6.0, Flash Attention e as dependências de requirements.txt
    • Baixar os checkpoints com download_weights.py (incluindo T5, VAE e MMAudio)
    • Se a GPU tiver 24GB de VRAM, é possível usar as versões quantizadas fp8 ou qint8
  • Arquivo de configuração de inferência: ovi/configs/inference/inference_fusion.yaml
    • Principais itens de configuração:
      • num_steps: número de etapas de denoising (30~50)
      • audio_guidance_scale, video_guidance_scale: intensidade da sincronização entre áudio e vídeo
      • sp_size: tamanho do paralelismo de sequência (configurar igual ao número de GPUs)
      • cpu_offload: modo para economizar VRAM da GPU
      • fp8: permite execução em ambientes com 24GB de VRAM
  • Exemplos de execução de inferência
    • GPU única: python3 inference.py --config-file ...
    • Multi-GPU: torchrun --nnodes 1 --nproc_per_node 8 inference.py ...

Requisitos de desempenho e memória

  • O modelo base exige no mínimo 32GB de VRAM, podendo rodar com 24GB no modo fp8
  • FlashAttention-3 melhora a velocidade de processamento quando ativado
  • Com processamento paralelo por sequência, o tempo de processamento fica na faixa de 40~55 segundos ao usar 4~8 GPUs
  • Com CPU offloading, é possível economizar VRAM, mas o tempo de processamento aumenta cerca de 20 segundos

Execução da interface Gradio

  • É possível iniciar uma interface baseada em Gradio com um comando simples
    • python3 gradio_app.py
    • Suporta diferentes ambientes com as opções --cpu_offload, --use_image_gen, --qint8 e --fp8
  • No modo I2V, o modelo de geração de imagem para criar o primeiro frame é ativado automaticamente

Estrutura de prompt e exemplos

  • Text-to-Audio-Video (T2AV): example_prompts/gpt_examples_t2v.csv
  • Image-to-Audio-Video (I2AV): example_prompts/gpt_examples_i2v.csv
  • Uso de tags especiais
    • ...: texto para conversão em fala
    • ...: descrição de som de fundo e efeitos sonoros
  • Geração de prompts com GPT
    • Com base nos CSVs de exemplo, é possível pedir ao GPT para ajustar falas para um tema específico (ex.: “confronto entre IA e humanos”)
    • O prompt ajustado pode então ser inserido no Ovi para gerar vídeos temáticos

Planos futuros (Todo List)

  • Divulgação futura do artigo de pesquisa e do site de demo
  • Publicação de checkpoint do modelo 11B e de código de inferência multi-GPU
  • Implementação planejada de pesos fp8, melhorias de eficiência no paralelismo de sequência e inferência com sharding FSDP
  • Pesquisa em andamento sobre fine-tuning com dados em alta resolução e melhoria de desempenho baseada em RL
  • Planejamento de desenvolvimento para geração de vídeos longos, condicionamento por voz de referência e modelo distilled para acelerar a inferência

Agradecimentos técnicos e colaboração

  • Wan2.2: usado na inicialização do ramo de vídeo
  • MMAudio: reutilizado como VAE de áudio
  • Contribuidores: @rkfg (otimização fp8), @gluttony-10 (quantização qint8)
  • Propostas de colaboração e contato: é possível entrar em contato com Weimin Wang

Informações de citação

  • Artigo: Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation
  • arXiv: https://arxiv.org/abs/2510.01284
  • BibTeX disponível; a citação é recomendada em caso de uso na pesquisa

Metadados do projeto

  • Licença: Apache-2.0
  • Composição de linguagens: Python 96.3%, CUDA 2.1%, C 1.4%, C++ 0.2%
  • Estatísticas do GitHub: ★955, forks 92, issues 20, PRs 2
  • Desenvolvedores: equipe da Character AI, pesquisadores da Yale University

1 comentários

 
GN⁺ 2025-10-24
Opiniões no Hacker News
  • Há meses venho mexendo com ferramentas de geração por IA, e é impressionante como cada uma delas está sendo rapidamente integrada em uma só e ficando utilizável até em máquina local
    Usei o Ovi desde a semana passada e foi bem divertido. Conteúdo gerado por IA é meio que uma máquina caça-níquel: mesmo com um bom prompt, o resultado às vezes sai péssimo, mas depois de várias tentativas aparece algo aproveitável
    Fiz vídeos com aparência e som bem convincentes usando I2V e T2V. O T2V às vezes parece ter qualidade de TV dos anos 90, mas isso acaba até passando uma sensação maior de realismo
    Usando o Flux SPRO como fonte de imagem, saem vídeos bem realistas. Minha GPU é uma 5090, então levaram cerca de 4 a 5 minutos para gerar um clipe de 5 segundos

  • Parece que o modelo de vídeo é baseado no Wan 2.2
    Tem havido bastante movimentação recente em torno do Wan, e é bom ver surgir um modelo aberto e flexível para enfrentar os modelos fechados das gigantes cheias de capital, como OpenAI e Runway

    • Os modelos de vídeo open source com foco em privacidade oferecidos pela VeniceAI são o principal destaque. O Ovi suporta imagem→vídeo, o Wan 2.1 suporta imagem→vídeo, e o Wan 2.2 suporta texto→vídeo
      Também existe o Wan 2.5, mas ele é roteado anonimamente por um provedor oficial. É muito mais barato do que opções mediadas como Kling, Veo e Sora
    • A discussão relacionada também apareceu no tópico Wan – Open-source alternative to VEO 3
    • E a Google também está envolvida nisso
  • Já trabalhei no Ovi da Nokia. Na época, o Ovi era tipo um GSuite para celulares Nokia, e a explicação oficial era “Ovi significa porta em finlandês”, mas internamente a piada era que significava “jardim de infância” em húngaro. Não consegui descobrir a origem do nome deste Ovi

    • Eu também trabalhei em um projeto relacionado ao Ovi. Nas primeiras reuniões na sede em Helsinque, ouvi executivos falando em mirar a Google como concorrente, e foi uma tentativa bem ousada
      Mas acabou ruindo, preso à falta de estratégia de marca e a políticas fracassadas de software para dispositivos. Acho que foi totalmente encerrado por volta de 2013. Nessa época eu já tinha saído da empresa
  • Meu ouvido talvez seja de uma geração anterior ao AutoTune, então ainda percebo no áudio traços de afinação perfeita e compressão/expansão dinâmica (companding)
    Em especial, soa parecido com a voz do personagem Machine Head da série Invincible
    Ainda assim, no geral, é um trabalho excelente

  • O projeto em si é interessante, mas ainda não tenho muita certeza sobre a utilidade prática de conteúdo audiovisual generativo
    No momento, parece trazer mais incômodo do que benefício

  • Nesse ritmo, parece possível que em poucos meses curtas-metragens de alta qualidade passem a ser feitos inteiramente com geração

    • Mas, na mesma medida, também devem surgir casos de uso abusivo de deepfake arruinando a vida de pessoas
    • Talvez chegue um futuro de festas de prompt, em que amigos se reúnem, cada um escreve um prompt e depois todos assistem juntos a um filme montado a partir disso. Só de imaginar já é engraçado
    • Ainda assim, acho mais provável aparecer um longa-metragem antes de um curta, porque quanto mais curto o vídeo, mais difícil é atingir um nível alto de acabamento
  • Fiquei curioso se esses projetos têm relação entre si, então comparei este tópico com este tópico

    • Quando surge um novo modelo open weights, oportunistas registram domínios com esse nome e tentam ganhar dinheiro com SEO
      Hoje isso ficou muito mais fácil graças às ferramentas de codificação por IA, que simplificam bastante a geração automática de landing pages
  • No caso de I2V, se você tiver uma GPU NVIDIA 4070 ou superior e VRAM suficiente, dá para obter um rascunho utilizável em 1 a 2 minutos na resolução 440x440
    O T2V ainda só mantém qualidade estável perto da resolução em que foi treinado. Mesmo assim, nas resoluções conhecidas do Wan, às vezes saem bons resultados
    Com CUDA 12.8 ou superior, Torch 2.8 ou superior, e usando SageAttention em vez de Flash 2, a qualidade melhora de forma perceptível

  • É um avanço interessante, mas é uma pena que uma empresa como a CAI tenha ficado com isso
    usando IA contra jovens e pessoas solitárias