VibeVoice - família de modelos open source de IA de voz de ponta

xguru · 2026-04-28T13:09:54+09:00

Família de modelos open source de IA de voz lançada pela Microsoft, incluindo tanto TTS (texto→voz) quanto ASR (voz→texto) O ASR é parecido com o Open AI Whisper, mas com separação de falantes (speaker diarization) embutida no próprio modelo A principal inovação é um tokenizador de voz contínua com taxa de quadros ultrabaixa de 7,5Hz, melhorando drasticamente a eficiência computacional de sequências longas enquanto mantém a qualidade do áudio Adota o framework next-token diffusion - o LLM entende o contexto do texto, e o diffusion head gera detalhes acústicos de alta qualidade VibeVoice-ASR (7B): processa até 60 minutos de áudio em uma única passada, com saída estruturada de falante (Who), timestamp (When) e conteúdo (What) O recurso de hotwords personalizadas pelo usuário melhora a precisão de reconhecimento de termos especializados de domínio Modelo multilíngue com suporte nativo a mais de 50 idiomas Integrado ao Hugging Face Transformers a partir de março de 2026 Suporte a inferência com vLLM para inferência mais rápida e código de fine-tuning disponibilizado VibeVoice-TTS (1.5B): gera até 90 minutos de fala conversacional em uma única passada, com suporte a até 4 falantes de uma vez Gera fala natural e expressiva, capturando nuances emocionais e dinâmica de conversação, com suporte multilíngue Foi lançado em 25 de agosto de 2025, mas depois foram identificados casos de uso diferentes da intenção original, e em 5 de setembro de 2025 o código de TTS foi removido do repositório VibeVoice-Realtime (0.5B): TTS em tempo real de até 10 minutos, com primeira saída de voz em cerca de 300 milissegundos Modelo leve de conversão de texto em fala em tempo real com 0.5B parâmetros, amigável para implantação Suporte a entrada de texto em streaming Lançado em 3 de dezembro de 2025; depois, em 16 de dezembro, foram adicionadas experimentalmente vozes multilíngues em 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) e 11 vozes em estilo inglês Suporte a Apple Silicon (MPS) adicionado à demo ASR em Gradio, melhorando a usabilidade no Mac Como é baseado no modelo base (Qwen2.5 1.5B), pode herdar vieses e erros, e é preciso cautela quanto ao potencial de uso indevido para deepfakes Licença MIT

(github.com/microsoft)

36 pontos por xguru 2026-04-28 | 1 comentários | Compartilhar no WhatsApp

Família de modelos open source de IA de voz lançada pela Microsoft, incluindo tanto TTS (texto→voz) quanto ASR (voz→texto)
O ASR é parecido com o Open AI Whisper, mas com separação de falantes (speaker diarization) embutida no próprio modelo
A principal inovação é um tokenizador de voz contínua com taxa de quadros ultrabaixa de 7,5Hz, melhorando drasticamente a eficiência computacional de sequências longas enquanto mantém a qualidade do áudio
Adota o framework next-token diffusion - o LLM entende o contexto do texto, e o diffusion head gera detalhes acústicos de alta qualidade
VibeVoice-ASR (7B): processa até 60 minutos de áudio em uma única passada, com saída estruturada de falante (Who), timestamp (When) e conteúdo (What)
- O recurso de hotwords personalizadas pelo usuário melhora a precisão de reconhecimento de termos especializados de domínio
- Modelo multilíngue com suporte nativo a mais de 50 idiomas
- Integrado ao Hugging Face Transformers a partir de março de 2026
- Suporte a inferência com vLLM para inferência mais rápida e código de fine-tuning disponibilizado
VibeVoice-TTS (1.5B): gera até 90 minutos de fala conversacional em uma única passada, com suporte a até 4 falantes de uma vez
- Gera fala natural e expressiva, capturando nuances emocionais e dinâmica de conversação, com suporte multilíngue
- Foi lançado em 25 de agosto de 2025, mas depois foram identificados casos de uso diferentes da intenção original, e em 5 de setembro de 2025 o código de TTS foi removido do repositório
VibeVoice-Realtime (0.5B): TTS em tempo real de até 10 minutos, com primeira saída de voz em cerca de 300 milissegundos
- Modelo leve de conversão de texto em fala em tempo real com 0.5B parâmetros, amigável para implantação
- Suporte a entrada de texto em streaming
- Lançado em 3 de dezembro de 2025; depois, em 16 de dezembro, foram adicionadas experimentalmente vozes multilíngues em 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) e 11 vozes em estilo inglês
- Suporte a Apple Silicon (MPS) adicionado à demo ASR em Gradio, melhorando a usabilidade no Mac
Como é baseado no modelo base (Qwen2.5 1.5B), pode herdar vieses e erros, e é preciso cautela quanto ao potencial de uso indevido para deepfakes
Licença MIT

1 comentários

xguru 2026-04-28

VibeVoice - o modelo de IA de voz open source de fronteira da Microsoft
No GeekNews ele foi divulgado logo no começo, mas parece que, por causa de algum problema, o código do VibeVoice-TTS foi removido.
Parece que, no momento, o TTS só está disponível no VibeVoice-Realtime.
Nos últimos dias tenho visto em vários lugares que ele voltou a ganhar popularidade por causa do VibeVoice-ASR.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison testou o ASR e disse que, no Mac, dá para rodar com um comando de uma linha usando uv e mlx-audio
e que processou 1 hora de áudio em cerca de 8 minutos e 45 segundos em um MacBook Pro M5 Max com 128 GB.
Dá para pensar nele como um Whisper com boa separação de falantes

VibeVoice - família de modelos open source de IA de voz de ponta

Leituras relacionadas

1 comentários