34 pontos por xguru 13 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Família de modelos open source de IA de voz lançada pela Microsoft, incluindo tanto TTS (texto→voz) quanto ASR (voz→texto)
  • O ASR é parecido com o Open AI Whisper, mas com separação de falantes (speaker diarization) embutida no próprio modelo
  • A principal inovação é um tokenizador de voz contínua com taxa de quadros ultrabaixa de 7,5Hz, melhorando drasticamente a eficiência computacional de sequências longas enquanto mantém a qualidade do áudio
  • Adota o framework next-token diffusion - o LLM entende o contexto do texto, e o diffusion head gera detalhes acústicos de alta qualidade
  • VibeVoice-ASR (7B): processa até 60 minutos de áudio em uma única passada, com saída estruturada de falante (Who), timestamp (When) e conteúdo (What)
    • O recurso de hotwords personalizadas pelo usuário melhora a precisão de reconhecimento de termos especializados de domínio
    • Modelo multilíngue com suporte nativo a mais de 50 idiomas
    • Integrado ao Hugging Face Transformers a partir de março de 2026
    • Suporte a inferência com vLLM para inferência mais rápida e código de fine-tuning disponibilizado
  • VibeVoice-TTS (1.5B): gera até 90 minutos de fala conversacional em uma única passada, com suporte a até 4 falantes de uma vez
    • Gera fala natural e expressiva, capturando nuances emocionais e dinâmica de conversação, com suporte multilíngue
    • Foi lançado em 25 de agosto de 2025, mas depois foram identificados casos de uso diferentes da intenção original, e em 5 de setembro de 2025 o código de TTS foi removido do repositório
  • VibeVoice-Realtime (0.5B): TTS em tempo real de até 10 minutos, com primeira saída de voz em cerca de 300 milissegundos
    • Modelo leve de conversão de texto em fala em tempo real com 0.5B parâmetros, amigável para implantação
    • Suporte a entrada de texto em streaming
    • Lançado em 3 de dezembro de 2025; depois, em 16 de dezembro, foram adicionadas experimentalmente vozes multilíngues em 9 idiomas (DE, FR, IT, JP, KR, NL, PL, PT, ES) e 11 vozes em estilo inglês
    • Suporte a Apple Silicon (MPS) adicionado à demo ASR em Gradio, melhorando a usabilidade no Mac
  • Como é baseado no modelo base (Qwen2.5 1.5B), pode herdar vieses e erros, e é preciso cautela quanto ao potencial de uso indevido para deepfakes
  • Licença MIT

1 comentários

 
xguru 13 일 전

VibeVoice - o modelo de IA de voz open source de fronteira da Microsoft
No GeekNews ele foi divulgado logo no começo, mas parece que, por causa de algum problema, o código do VibeVoice-TTS foi removido.
Parece que, no momento, o TTS só está disponível no VibeVoice-Realtime.
Nos últimos dias tenho visto em vários lugares que ele voltou a ganhar popularidade por causa do VibeVoice-ASR.

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison testou o ASR e disse que, no Mac, dá para rodar com um comando de uma linha usando uv e mlx-audio
e que processou 1 hora de áudio em cerca de 8 minutos e 45 segundos em um MacBook Pro M5 Max com 128 GB.
Dá para pensar nele como um Whisper com boa separação de falantes