VibeVoice - o modelo open source de síntese de voz de próxima geração da Microsoft

(microsoft.github.io)

5 pontos por GN⁺ 2025-09-04 | 1 comentários | Compartilhar no WhatsApp

Novo modelo de síntese de voz TTS projetado para gerar fala conversacional natural de longa duração com múltiplos locutores a partir de texto
Foi concebido para resolver os limites dos sistemas anteriores em escalabilidade, consistência dos locutores e transições naturais de turno
Pode sintetizar simultaneamente áudio com até 90 minutos de duração e até 4 locutores, superando os modelos anteriores limitados a 1–2 pessoas
O núcleo usa um tokenizador contínuo de fala com taxa de quadros ultrabaixa de 7.5Hz (Acoustic/Semantic) para processar eficientemente sequências longas de áudio mantendo a qualidade sonora
Utiliza a abordagem Next-Token Diffusion para modelar dados contínuos com eficiência e, para isso, introduz um novo tokenizador contínuo de fala que oferece taxa de compressão 80 vezes maior que o Encodec existente

Introdução

Nos últimos anos, a tecnologia TTS conseguiu sintetizar com alta qualidade falas curtas de um único locutor, mas a síntese de conversas longas com múltiplos locutores ainda continua sendo um desafio
- Métodos anteriores simplesmente encadeavam enunciados, gerando transições pouco naturais
- Era difícil gerar alternância de turnos natural e fala com consciência de contexto
Objetivo: dar suporte à síntese de fala conversacional longa e com múltiplos locutores, como em podcasts
Para resolver isso, o VibeVoice combina um tokenizador de fala com taxa de quadros ultrabaixa (7.5Hz) com uma arquitetura Diffusion baseada em LLM
Como resultado, consegue sintetizar de forma estável áudio com múltiplos locutores por até 90 minutos

Inovações técnicas

Tokenizador contínuo de fala (7.5Hz):
- Uso combinado de tokenizadores Acoustic + Semantic
- Garante eficiência no processamento de sequências longas e, ao mesmo tempo, mantém a fidelidade do áudio
Framework de next-token diffusion:
- O LLM entende o contexto do texto e o fluxo da conversa
- O diffusion head gera detalhes acústicos de alta resolução
Resultado: síntese de voz muito mais natural e mais humana do que antes

Desempenho

Suporta síntese de voz com até 90 minutos de duração
Compatível com até 4 locutores (superando o limite de 1–2 dos modelos anteriores)
Entrega fala expressiva e consistente em diferentes cenários de conversa

Resultados experimentais

Síntese de conversas longas (Podcast)

Avaliado em um dataset de conversas com 1 hora de duração
Medidas de WER (taxa de erro de palavras), SIM (similaridade de locutor) e avaliação subjetiva (MOS)
O VIBEVOICE-7B registrou o melhor desempenho com Realism 3.71, Richness 3.81, Preference 3.75
Superou modelos recentes como Gemini 2.5 Pro e ElevenLabs v3

Conclusão e limitações

O VibeVoice é um framework TTS de próxima geração que oferece síntese natural de conversas com até 90 minutos e 4 locutores
Apresenta qualidade subjetiva e objetiva superior em relação a modelos open source e comerciais existentes
Limitações:
- Idiomas além de inglês e chinês podem gerar resultados inesperados
- Áudio não vocal (som de fundo, música) não é suportado
- Fala simultânea (Overlapping Speech) não é suportada
- Existe risco de uso indevido para deepfakes e desinformação
Portanto, no momento é fornecido apenas para pesquisa e desenvolvimento, e o uso comercial não é recomendado

1 comentários

GN⁺ 2025-09-04

Opiniões no Hacker News

Vi vários comentários elogiando este modelo de voz como algo realmente realista e fui à página cheio de expectativa, mas ao ouvir tive uma impressão totalmente diferente. A qualidade do áudio em si era boa, mas a entonação soava estranha na maioria das frases e havia uma sensação claramente mecânica. Comparado ao TTS de alguns anos atrás, é bastante impressionante, mas em comparação com as vozes de IA atuais não me impressionou muito. Especialmente porque até as vozes de IA que se ouvem com frequência no YouTube Shorts me parecem tão boas quanto a maioria das amostras deste site. A única coisa que achei impressionante foram as amostras em inglês e chinês (provavelmente mandarim), nas quais a troca entre os dois idiomas acontecia de forma muito natural. Mas como não tenho familiaridade com o chinês, não consegui avaliar corretamente a pronúncia, e também pode ser que a troca tenha sido mais fácil por haver uma distinção clara entre caracteres chineses e alfabeto latino. Imagino que, se fossem dois idiomas com o mesmo sistema de escrita, talvez não parecesse tão natural assim. Por fim, a amostra de canto foi bem difícil de ouvir, e fiquei muito curioso para saber por que decidiram incluí-la
- O comentário da equipe de desenvolvimento sobre canto e música de fundo parece um tanto estranho. Fiquei fortemente com a impressão de que eles não conseguiram encontrar uma forma de remover a música de fundo a tempo do prazo do artigo e acabaram dizendo que isso era uma “característica”. Não parece algo que tenham adicionado por considerarem um diferencial real
- Se alguém puder recomendar um modelo de TTS melhor do que este, eu agradeceria. Sempre há gente exagerando o progresso e gente desmerecendo, e não acho que nenhum dos dois lados atrapalhe necessariamente a evolução. Entre os modelos que ouvi até agora, este foi o melhor, mas pode ser que exista algo melhor que eu não conheça
- Este modelo é bem bom, mas não é o melhor entre os gratuitos. O Chatterbox é mais realista, muito menos mecânico e tem entonação mais natural (embora não seja perfeito)
- Senti que as vozes femininas são muito mais naturais e convincentes do que as masculinas. Em comparação, as vozes masculinas não parecem muito melhores do que um TTS de 10 anos atrás
- O verdadeiro ponto forte deste modelo é o clonagem de voz. Se você colocar uma amostra da sua própria voz na pasta voices, funciona muito bem
Espero muito que a Microsoft dê ao seu agente open source de programação o nome de Microsoft VibeCode. Ou então “Lo”, para poder usar junto com Phi. Aí daria para fazer “Lo Phi” e vibe code ao mesmo tempo. Informações sobre o modelo de linguagem Phi 4 da Microsoft
- Pela história do marketing da Microsoft, acho que no fim vai ser algo direto como "Microsoft Copilot Code Generator for VSCode" ou então um nome aleatório tipo "Zunega"
- Ideia genial
O VibeVoice-Large é o primeiro TTS local que já vi oferecer pronúncia em finlandês de forma realmente natural, quase sem sotaque. Testei ontem e fiquei especialmente impressionado com a forma como ele consegue copiar até a clonagem de voz e a emoção
Tecnicamente a qualidade é bem alta, mas, especialmente nas vozes masculinas, a primeira impressão é imediatamente de uma voz gerada por IA. Não entendo o suficiente de áudio para explicar bem o motivo
- Também não sou engenheiro de áudio, mas essa voz de IA me soa como uma forma de onda “saw-tooth”. Modelos básicos ou tecnologias mais simples acabam amostrando menos, então surge uma espécie de pulso de áudio extra que dá essa sensação trêmula e mecânica. Em modelos melhores, a forma de onda muda de maneira mais suave. Referência sobre formas de onda
- Para mim, o timbre parece meio recortado em blocos e, se eu visualizasse o som, diria que faltam suavidade e arredondamento na forma de onda, gerando uma ressonância meio metálica, como uma caixa de metal
- Ouvindo diretamente, consegui entender a sensação. Há trechos em que a voz parece tremer ou como se tivesse sido comprimida demais em mp3
As vozes masculinas parecem muito mais artificiais do que as femininas, a ponto de soarem quase robóticas. O fato de a maioria das amostras oficiais começar com vozes femininas sugere que a equipe de desenvolvimento também está ciente desse problema
- Tive a mesma impressão. As vozes masculinas realmente soam mais artificiais
Fico curioso se existe algum ranking ou lista popular e atualizada de modelos TTS com pesos abertos. Na verdade tenho mais interesse em STT (ASR), mas as opções são poucas demais
- Dá para ver na lista de modelos TTS do Hugging Face. Os modelos que aparecem em alta geralmente valem a pena. Como o critério de avaliação é muito subjetivo, o mais importante é ouvir por conta própria. No caso dos modelos que nem entram em tendência no HF, a chance de serem muito bons costuma ser baixa
- Os TTS que podem ser considerados os melhores são: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice e XTTS-2
- Se clicar em leaderboard no menu hambúrguer, aparece a página de ranking TTS-AGI/TTS-Arena-V2
- Excelente
Para usuários com GPU fraca, este modelo é difícil de usar. Não consegui fazê-lo rodar direito em uma GPU 1080 antiga e, ao executá-lo na CPU com torch.float32, levou 832 segundos para gerar 66 segundos de áudio. Quando mudei para torch.bfloat16, apareceu um ruído estranho no áudio. Até agora, o modelo de TTS mais utilizável para mim em cenários com pouca GPU foi o Kokoro. Além disso, como alguém mencionou nesta thread, atualmente não há como adicionar anotações separadas ao texto para controlar finamente a saída do TTS. Acho que um caminho interessante para a evolução do modelo seria inserir uma etapa intermediária no texto para gerar essas anotações e então passá-las ao TTS. Isso permitiria ao usuário controlar o resultado com muito mais precisão
- Acho isso um exagero enorme. O macOS já oferece TTS instantâneo e de qualidade bastante boa há muito tempo, sem precisar desses modelos pesados. Não há latência nenhuma. Acho esse hype de “IA” realmente exagerado
Dizem que é open source, então por que os dados de treinamento não são públicos?
- A maior parte dos dados coletados por crawling envolve vários riscos legais, como direitos autorais, termos de uso e privacidade, então, do ponto de vista de uma empresa comercial, não é muito sensato abrir tudo completamente
O diálogo de exemplo de Spontaneous Emotion parece uma voz em que a equipe tentou “resolver” emoção com um LLM. Teria sido melhor deixar a amostra de canto de fora. O modelo ainda não serve para cantar de jeito nenhum
- Essa música me fez procurá-la de novo para ouvir. É realmente uma faixa excelente para provocar emoção. Robôs ainda têm um longo caminho até cantar bem
No momento, os dois modelos de TTS considerados os melhores são HiggsAudio e VibeVoice. Pessoalmente, o Higgs foi muito superior ao Vibe em velocidade e qualidade sonora. Quanto à expressividade, não sei dizer, mas recomendo muito que testem sem falta

VibeVoice - o modelo open source de síntese de voz de próxima geração da Microsoft

Introdução

Inovações técnicas

Desempenho

Resultados experimentais

Síntese de conversas longas (Podcast)

Conclusão e limitações

Leituras relacionadas

1 comentários

Opiniões no Hacker News