VibeVoice - modelo de IA de voz open source de ponta
(github.com/microsoft)- Família de modelos de IA de voz open source lançada pela Microsoft, incluindo tanto TTS (texto→fala) quanto ASR (fala→texto)
- O ASR é parecido com o Whisper da OpenAI, mas tem a função de separação de falantes (speaker diarization) embutida no próprio modelo
- A inovação central é um tokenizador contínuo de fala com taxa de quadros ultrabaixa de 7,5 Hz, que melhora drasticamente a eficiência computacional em sequências longas mantendo a qualidade do áudio
- Adota o framework de next-token diffusion - o LLM entende o contexto do texto, e o diffusion head gera detalhes acústicos de alta qualidade
- VibeVoice-ASR (7B): processa até 60 minutos de áudio em uma única passagem, com saída estruturada de falante (Who), timestamp (When) e conteúdo (What)
- Recurso de hotwords personalizadas pelo usuário para melhorar a precisão no reconhecimento de termos especializados de domínio
- Modelo multilíngue com suporte nativo a mais de 50 idiomas
- Integração ao Hugging Face Transformers a partir de março de 2026
- Suporte a inferência com vLLM para inferência mais rápida e publicação do código de fine-tuning
- VibeVoice-TTS (1.5B): gera até 90 minutos de fala conversacional em uma única passagem, com suporte a até 4 falantes de uma vez
- Geração de voz natural e expressiva com suporte multilíngue, capturando nuances emocionais e dinâmica de conversa
- Lançado em 25 de agosto de 2025, mas depois foram encontrados casos de uso diferente da intenção original, e em 5 de setembro de 2025 o código de TTS foi removido do repositório
- VibeVoice-Realtime (0.5B): TTS em tempo real de até 10 minutos, com a primeira saída de voz em cerca de 300 milissegundos
- Modelo leve de conversão de texto em fala em tempo real com 0.5B parâmetros, favorável para implantação
- Suporte a entrada de texto em streaming
- Lançado em 3 de dezembro de 2025, e em 16 de dezembro foram adicionadas experimentalmente vozes multilíngues em 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) e 11 vozes em estilo inglês
- Suporte a Apple Silicon (MPS) adicionado à demo ASR em Gradio, melhorando a usabilidade no Mac
- Por ser baseado no modelo base (Qwen2.5 1.5B), pode herdar vieses e erros, exigindo cautela quanto ao potencial de uso indevido em deepfakes
- Licença MIT
1 comentários
VibeVoice - o modelo de síntese de voz open source de nova geração da Microsoft
No GeekNews ele foi divulgado logo no começo, mas por causa de alguns problemas o código do VibeVoice-TTS acabou sendo removido.
Parece que, no momento, o TTS só pode ser usado com o VibeVoice-Realtime.
Nos últimos dias tenho visto ele voltar a ganhar popularidade aqui e ali por causa do VibeVoice-ASR.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison testou e disse que, no Mac, dá para executar com um comando de uma linha usando
uve mlx-audio,e que processou cerca de 1 hora de áudio em aproximadamente 8 minutos e 45 segundos em um MacBook Pro M5 Max de 128 GB.
Dá para pensar nele como um
Whisper com boa separação de falantes