25 pontos por xguru 1 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Família de modelos de IA de voz open source lançada pela Microsoft, incluindo tanto TTS (texto→fala) quanto ASR (fala→texto)
  • O ASR é parecido com o Whisper da OpenAI, mas tem a função de separação de falantes (speaker diarization) embutida no próprio modelo
  • A inovação central é um tokenizador contínuo de fala com taxa de quadros ultrabaixa de 7,5 Hz, que melhora drasticamente a eficiência computacional em sequências longas mantendo a qualidade do áudio
  • Adota o framework de next-token diffusion - o LLM entende o contexto do texto, e o diffusion head gera detalhes acústicos de alta qualidade
  • VibeVoice-ASR (7B): processa até 60 minutos de áudio em uma única passagem, com saída estruturada de falante (Who), timestamp (When) e conteúdo (What)
    • Recurso de hotwords personalizadas pelo usuário para melhorar a precisão no reconhecimento de termos especializados de domínio
    • Modelo multilíngue com suporte nativo a mais de 50 idiomas
    • Integração ao Hugging Face Transformers a partir de março de 2026
    • Suporte a inferência com vLLM para inferência mais rápida e publicação do código de fine-tuning
  • VibeVoice-TTS (1.5B): gera até 90 minutos de fala conversacional em uma única passagem, com suporte a até 4 falantes de uma vez
    • Geração de voz natural e expressiva com suporte multilíngue, capturando nuances emocionais e dinâmica de conversa
    • Lançado em 25 de agosto de 2025, mas depois foram encontrados casos de uso diferente da intenção original, e em 5 de setembro de 2025 o código de TTS foi removido do repositório
  • VibeVoice-Realtime (0.5B): TTS em tempo real de até 10 minutos, com a primeira saída de voz em cerca de 300 milissegundos
    • Modelo leve de conversão de texto em fala em tempo real com 0.5B parâmetros, favorável para implantação
    • Suporte a entrada de texto em streaming
    • Lançado em 3 de dezembro de 2025, e em 16 de dezembro foram adicionadas experimentalmente vozes multilíngues em 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) e 11 vozes em estilo inglês
    • Suporte a Apple Silicon (MPS) adicionado à demo ASR em Gradio, melhorando a usabilidade no Mac
  • Por ser baseado no modelo base (Qwen2.5 1.5B), pode herdar vieses e erros, exigindo cautela quanto ao potencial de uso indevido em deepfakes
  • Licença MIT

1 comentários

 
xguru 1 일 전

VibeVoice - o modelo de síntese de voz open source de nova geração da Microsoft
No GeekNews ele foi divulgado logo no começo, mas por causa de alguns problemas o código do VibeVoice-TTS acabou sendo removido.
Parece que, no momento, o TTS só pode ser usado com o VibeVoice-Realtime.
Nos últimos dias tenho visto ele voltar a ganhar popularidade aqui e ali por causa do VibeVoice-ASR.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison testou e disse que, no Mac, dá para executar com um comando de uma linha usando uv e mlx-audio,
e que processou cerca de 1 hora de áudio em aproximadamente 8 minutos e 45 segundos em um MacBook Pro M5 Max de 128 GB.
Dá para pensar nele como um Whisper com boa separação de falantes