VibeVoice - IA de voz open source de ponta
(github.com/microsoft)- Consiste em uma família de modelos de IA de voz que inclui TTS e ASR, cobrindo tanto geração de voz longa quanto reconhecimento de fala de longa duração
- A arquitetura central combina um tokenizador contínuo de voz de ultrabaixa taxa de quadros de 7.5 Hz com next-token diffusion, visando qualidade de áudio e eficiência computacional ao processar sequências longas
- Para entender o contexto textual e o fluxo da conversa, usa um LLM; para gerar detalhes acústicos de alta fidelidade, adota uma estrutura com diffusion head
- O VibeVoice-ASR processa até 60 minutos de áudio em uma única passada e gera transcrições estruturadas que incluem informações do falante, timestamps e conteúdo da fala
- O modelo de ASR oferece suporte a mais de 50 idiomas e pode receber hotwords personalizadas ou informações de contexto para melhorar a precisão de reconhecimento em domínios específicos
- No lado de ASR, foram disponibilizados código de finetuning e suporte a inferência com vLLM, além de uso direto pela biblioteca Hugging Face Transformers
- O VibeVoice-TTS sintetiza voz de até 90 minutos em uma única passada e suporta até 4 falantes dentro de uma mesma conversa
- O TTS enfatiza voz conversacional expressiva e consistência entre falantes, com suporte a inglês, chinês e outros idiomas
- Segundo o aviso no repositório, o código do VibeVoice-TTS foi removido; está explícito que ele foi excluído após a identificação de usos incompatíveis com a intenção declarada após a publicação
- O VibeVoice-Realtime-0.5B é um modelo de TTS em tempo real de escala 0.5B, com suporte a entrada de texto em streaming, cerca de 300 ms de latência até o primeiro áudio audível e geração de voz longa de cerca de 10 minutos
- Ao modelo Realtime foram adicionados falantes experimentais multilíngues em 9 idiomas e 11 vozes em estilos de inglês; o repositório diz que pretende continuar ampliando os tipos de voz
- Os caminhos de distribuição estão organizados principalmente em pesos no Hugging Face, Playground e Colab, permitindo testes rápidos
- Este repositório é indicado somente para fins de pesquisa e desenvolvimento, e não é recomendado para uso comercial ou em ambientes reais sem testes e desenvolvimento adicionais
- Os modelos podem herdar viés e erros do modelo base Qwen2.5 1.5b; devido aos riscos de deepfakes, impersonação e disseminação de desinformação, recomenda-se uso legal e responsável e divulgação de conteúdo gerado por IA
1 comentários
Comentários do Hacker News
Isso nem é um modelo novo e, pelos padrões de STT, tem muita alucinação, a inferência é pesada e lenta, e o desempenho multilíngue também não é grande coisa
Não sei sobre os outros recursos; aqui estou falando puramente de speech to text
Mas, no geral, passa a sensação de ter sido treinado com dados muito ruidosos, usa mais memória e também não é rápido
Estou falando da versão 7B
vibevoice-community, que chegou a ser publicada brevemente e logo foi retirada; hoje continuo usando chatterbox turbo e, às vezes, qwen TTSNo Twitter só se fala disso
Usei por alguns dias e, para começar, não existe documentação do modelo 1.5B, e o modelo realtime 0.5B era péssimo
Ele convertia o texto linha por linha, inseria música aleatoriamente e nem conseguia lidar direito com caracteres especiais como
…Sinceramente, foi bem decepcionante
Já cancelei a estrela no repo e vou passar direto
Acho que já deveríamos parar de chamar modelos desse tipo de open source
Na prática, são apenas open weight; o código de treino é proprietário e nunca foi publicado
https://github.com/microsoft/VibeVoice/issues/102
Desculpa, Stallman
Quando um projeto diz que é open source, o mais importante para mim é o que eu realmente posso fazer com ele
A distinção entre open source vs open weight parece ter entrado na mesma categoria de hacker/cracker ou da discussão sobre a pronúncia de GIF
Só significa que você não tem acesso; a licença em si continua sendo MIT
Ainda assim, concordo totalmente que a Microsoft está exagerando a abertura aqui, o que também não é nenhuma surpresa
Dados de treino fechados também me incomodam, mas, para mim, licença restritiva incomoda mais
Nessa categoria, acho o Voxtral muito melhor
Além disso, ele é pequeno o suficiente para rodar em webGPU
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont publicou algo interessante sobre esse repo/produto/autor
https://cyberplace.social/@GossiTheDog/116454846703138243
Acho que não é aquele projeto que a Microsoft publicou e logo depois tirou do ar por motivos de segurança/safety?
Fico curioso sobre o que mudou desde então
O modelo TTS original sumiu deste repo, embora ainda possa ser encontrado em outro lugar
Em vez disso, os modelos SST/ASR, TTS long form e TTS streaming são mais novos
Porque esse projeto aborda várias áreas ao mesmo tempo, incluindo as que você acabou de citar
É curioso ver uma empresa como a Microsoft oficializando vibe como termo de produto de IA
O speech-swift que eu criei também foca em processamento de voz on-device, como o VibeVoice
Só que foi feito para rodar ASR, TTS e VAD aproveitando o Apple Silicon, sem dependência de nuvem
O ASR suporta 52 idiomas e o real-time factor é 0.06
https://soniqo.audio/benchmarks
Gostei do post do Simon de ontem à noite
https://simonwillison.net/2026/Apr/27/vibevoice/
É uma área parecida com a do whisper; além disso, há modelos separados de TTS long-form e TTS streaming
Fico curioso para saber o motivo
Selecionei Microsoft Sam como a voz padrão do computador
Sususususususu
Uau, finalmente saiu um produto de IA da Microsoft com um nome que não é Copilot