- Família de modelos open source de IA de voz lançada pela Microsoft, incluindo tanto TTS (texto→voz) quanto ASR (voz→texto)
- O ASR é parecido com o Open AI Whisper, mas com separação de falantes (speaker diarization) embutida no próprio modelo
- A principal inovação é um tokenizador de voz contínua com taxa de quadros ultrabaixa de 7,5Hz, melhorando drasticamente a eficiência computacional de sequências longas enquanto mantém a qualidade do áudio
- Adota o framework next-token diffusion - o LLM entende o contexto do texto, e o diffusion head gera detalhes acústicos de alta qualidade
- VibeVoice-ASR (7B): processa até 60 minutos de áudio em uma única passada, com saída estruturada de falante (Who), timestamp (When) e conteúdo (What)
- O recurso de hotwords personalizadas pelo usuário melhora a precisão de reconhecimento de termos especializados de domínio
- Modelo multilíngue com suporte nativo a mais de 50 idiomas
- Integrado ao Hugging Face Transformers a partir de março de 2026
- Suporte a inferência com vLLM para inferência mais rápida e código de fine-tuning disponibilizado
- VibeVoice-TTS (1.5B): gera até 90 minutos de fala conversacional em uma única passada, com suporte a até 4 falantes de uma vez
- Gera fala natural e expressiva, capturando nuances emocionais e dinâmica de conversação, com suporte multilíngue
- Foi lançado em 25 de agosto de 2025, mas depois foram identificados casos de uso diferentes da intenção original, e em 5 de setembro de 2025 o código de TTS foi removido do repositório
- VibeVoice-Realtime (0.5B): TTS em tempo real de até 10 minutos, com primeira saída de voz em cerca de 300 milissegundos
- Modelo leve de conversão de texto em fala em tempo real com 0.5B parâmetros, amigável para implantação
- Suporte a entrada de texto em streaming
- Lançado em 3 de dezembro de 2025; depois, em 16 de dezembro, foram adicionadas experimentalmente vozes multilíngues em 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) e 11 vozes em estilo inglês
- Suporte a Apple Silicon (MPS) adicionado à demo ASR em Gradio, melhorando a usabilidade no Mac
- Como é baseado no modelo base (Qwen2.5 1.5B), pode herdar vieses e erros, e é preciso cautela quanto ao potencial de uso indevido para deepfakes
- Licença MIT
1 comentários
VibeVoice - o modelo de IA de voz open source de fronteira da Microsoft
No GeekNews ele foi divulgado logo no começo, mas parece que, por causa de algum problema, o código do VibeVoice-TTS foi removido.
Parece que, no momento, o TTS só está disponível no VibeVoice-Realtime.
Nos últimos dias tenho visto em vários lugares que ele voltou a ganhar popularidade por causa do VibeVoice-ASR.
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison testou o ASR e disse que, no Mac, dá para rodar com um comando de uma linha usando
uve mlx-audioe que processou 1 hora de áudio em cerca de 8 minutos e 45 segundos em um MacBook Pro M5 Max com 128 GB.
Dá para pensar nele como um
Whisper com boa separação de falantes