5 pontos por GN⁺ 2025-09-04 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Novo modelo de síntese de voz TTS projetado para gerar fala conversacional natural de longa duração com múltiplos locutores a partir de texto
  • Foi concebido para resolver os limites dos sistemas anteriores em escalabilidade, consistência dos locutores e transições naturais de turno
  • Pode sintetizar simultaneamente áudio com até 90 minutos de duração e até 4 locutores, superando os modelos anteriores limitados a 1–2 pessoas
  • O núcleo usa um tokenizador contínuo de fala com taxa de quadros ultrabaixa de 7.5Hz (Acoustic/Semantic) para processar eficientemente sequências longas de áudio mantendo a qualidade sonora
  • Utiliza a abordagem Next-Token Diffusion para modelar dados contínuos com eficiência e, para isso, introduz um novo tokenizador contínuo de fala que oferece taxa de compressão 80 vezes maior que o Encodec existente

Introdução

  • Nos últimos anos, a tecnologia TTS conseguiu sintetizar com alta qualidade falas curtas de um único locutor, mas a síntese de conversas longas com múltiplos locutores ainda continua sendo um desafio
    • Métodos anteriores simplesmente encadeavam enunciados, gerando transições pouco naturais
    • Era difícil gerar alternância de turnos natural e fala com consciência de contexto
  • Objetivo: dar suporte à síntese de fala conversacional longa e com múltiplos locutores, como em podcasts
  • Para resolver isso, o VibeVoice combina um tokenizador de fala com taxa de quadros ultrabaixa (7.5Hz) com uma arquitetura Diffusion baseada em LLM
  • Como resultado, consegue sintetizar de forma estável áudio com múltiplos locutores por até 90 minutos

Inovações técnicas

  • Tokenizador contínuo de fala (7.5Hz):
    • Uso combinado de tokenizadores Acoustic + Semantic
    • Garante eficiência no processamento de sequências longas e, ao mesmo tempo, mantém a fidelidade do áudio
  • Framework de next-token diffusion:
    • O LLM entende o contexto do texto e o fluxo da conversa
    • O diffusion head gera detalhes acústicos de alta resolução
  • Resultado: síntese de voz muito mais natural e mais humana do que antes

Desempenho

  • Suporta síntese de voz com até 90 minutos de duração
  • Compatível com até 4 locutores (superando o limite de 1–2 dos modelos anteriores)
  • Entrega fala expressiva e consistente em diferentes cenários de conversa

Resultados experimentais

Síntese de conversas longas (Podcast)

  • Avaliado em um dataset de conversas com 1 hora de duração
  • Medidas de WER (taxa de erro de palavras), SIM (similaridade de locutor) e avaliação subjetiva (MOS)
  • O VIBEVOICE-7B registrou o melhor desempenho com Realism 3.71, Richness 3.81, Preference 3.75
  • Superou modelos recentes como Gemini 2.5 Pro e ElevenLabs v3

Conclusão e limitações

  • O VibeVoice é um framework TTS de próxima geração que oferece síntese natural de conversas com até 90 minutos e 4 locutores
  • Apresenta qualidade subjetiva e objetiva superior em relação a modelos open source e comerciais existentes
  • Limitações:
    • Idiomas além de inglês e chinês podem gerar resultados inesperados
    • Áudio não vocal (som de fundo, música) não é suportado
    • Fala simultânea (Overlapping Speech) não é suportada
    • Existe risco de uso indevido para deepfakes e desinformação
  • Portanto, no momento é fornecido apenas para pesquisa e desenvolvimento, e o uso comercial não é recomendado

Ainda não há comentários.

Ainda não há comentários.