- Novo modelo de síntese de voz TTS projetado para gerar fala conversacional natural de longa duração com múltiplos locutores a partir de texto
- Foi concebido para resolver os limites dos sistemas anteriores em escalabilidade, consistência dos locutores e transições naturais de turno
- Pode sintetizar simultaneamente áudio com até 90 minutos de duração e até 4 locutores, superando os modelos anteriores limitados a 1–2 pessoas
- O núcleo usa um tokenizador contínuo de fala com taxa de quadros ultrabaixa de 7.5Hz (Acoustic/Semantic) para processar eficientemente sequências longas de áudio mantendo a qualidade sonora
- Utiliza a abordagem Next-Token Diffusion para modelar dados contínuos com eficiência e, para isso, introduz um novo tokenizador contínuo de fala que oferece taxa de compressão 80 vezes maior que o Encodec existente
Introdução
- Nos últimos anos, a tecnologia TTS conseguiu sintetizar com alta qualidade falas curtas de um único locutor, mas a síntese de conversas longas com múltiplos locutores ainda continua sendo um desafio
- Métodos anteriores simplesmente encadeavam enunciados, gerando transições pouco naturais
- Era difícil gerar alternância de turnos natural e fala com consciência de contexto
- Objetivo: dar suporte à síntese de fala conversacional longa e com múltiplos locutores, como em podcasts
- Para resolver isso, o VibeVoice combina um tokenizador de fala com taxa de quadros ultrabaixa (7.5Hz) com uma arquitetura Diffusion baseada em LLM
- Como resultado, consegue sintetizar de forma estável áudio com múltiplos locutores por até 90 minutos
Inovações técnicas
- Tokenizador contínuo de fala (7.5Hz):
- Uso combinado de tokenizadores Acoustic + Semantic
- Garante eficiência no processamento de sequências longas e, ao mesmo tempo, mantém a fidelidade do áudio
- Framework de next-token diffusion:
- O LLM entende o contexto do texto e o fluxo da conversa
- O diffusion head gera detalhes acústicos de alta resolução
- Resultado: síntese de voz muito mais natural e mais humana do que antes
Desempenho
- Suporta síntese de voz com até 90 minutos de duração
- Compatível com até 4 locutores (superando o limite de 1–2 dos modelos anteriores)
- Entrega fala expressiva e consistente em diferentes cenários de conversa
Resultados experimentais
Síntese de conversas longas (Podcast)
- Avaliado em um dataset de conversas com 1 hora de duração
- Medidas de WER (taxa de erro de palavras), SIM (similaridade de locutor) e avaliação subjetiva (MOS)
- O VIBEVOICE-7B registrou o melhor desempenho com Realism 3.71, Richness 3.81, Preference 3.75
- Superou modelos recentes como Gemini 2.5 Pro e ElevenLabs v3
Conclusão e limitações
- O VibeVoice é um framework TTS de próxima geração que oferece síntese natural de conversas com até 90 minutos e 4 locutores
- Apresenta qualidade subjetiva e objetiva superior em relação a modelos open source e comerciais existentes
- Limitações:
- Idiomas além de inglês e chinês podem gerar resultados inesperados
- Áudio não vocal (som de fundo, música) não é suportado
- Fala simultânea (Overlapping Speech) não é suportada
- Existe risco de uso indevido para deepfakes e desinformação
- Portanto, no momento é fornecido apenas para pesquisa e desenvolvimento, e o uso comercial não é recomendado
Ainda não há comentários.