VibeVoice - IA de voz open source de ponta

(github.com/microsoft)

1 pontos por GN⁺ 11 시간 전 | 1 comentários | Compartilhar no WhatsApp

Consiste em uma família de modelos de IA de voz que inclui TTS e ASR, cobrindo tanto geração de voz longa quanto reconhecimento de fala de longa duração
A arquitetura central combina um tokenizador contínuo de voz de ultrabaixa taxa de quadros de 7.5 Hz com next-token diffusion, visando qualidade de áudio e eficiência computacional ao processar sequências longas
Para entender o contexto textual e o fluxo da conversa, usa um LLM; para gerar detalhes acústicos de alta fidelidade, adota uma estrutura com diffusion head
O VibeVoice-ASR processa até 60 minutos de áudio em uma única passada e gera transcrições estruturadas que incluem informações do falante, timestamps e conteúdo da fala
O modelo de ASR oferece suporte a mais de 50 idiomas e pode receber hotwords personalizadas ou informações de contexto para melhorar a precisão de reconhecimento em domínios específicos
No lado de ASR, foram disponibilizados código de finetuning e suporte a inferência com vLLM, além de uso direto pela biblioteca Hugging Face Transformers
O VibeVoice-TTS sintetiza voz de até 90 minutos em uma única passada e suporta até 4 falantes dentro de uma mesma conversa
O TTS enfatiza voz conversacional expressiva e consistência entre falantes, com suporte a inglês, chinês e outros idiomas
Segundo o aviso no repositório, o código do VibeVoice-TTS foi removido; está explícito que ele foi excluído após a identificação de usos incompatíveis com a intenção declarada após a publicação
O VibeVoice-Realtime-0.5B é um modelo de TTS em tempo real de escala 0.5B, com suporte a entrada de texto em streaming, cerca de 300 ms de latência até o primeiro áudio audível e geração de voz longa de cerca de 10 minutos
Ao modelo Realtime foram adicionados falantes experimentais multilíngues em 9 idiomas e 11 vozes em estilos de inglês; o repositório diz que pretende continuar ampliando os tipos de voz
Os caminhos de distribuição estão organizados principalmente em pesos no Hugging Face, Playground e Colab, permitindo testes rápidos
Este repositório é indicado somente para fins de pesquisa e desenvolvimento, e não é recomendado para uso comercial ou em ambientes reais sem testes e desenvolvimento adicionais
Os modelos podem herdar viés e erros do modelo base Qwen2.5 1.5b; devido aos riscos de deepfakes, impersonação e disseminação de desinformação, recomenda-se uso legal e responsável e divulgação de conteúdo gerado por IA

1 comentários

GN⁺ 11 시간 전

Comentários do Hacker News

Isso nem é um modelo novo e, pelos padrões de STT, tem muita alucinação, a inferência é pesada e lenta, e o desempenho multilíngue também não é grande coisa
Não sei sobre os outros recursos; aqui estou falando puramente de speech to text
- Não é que não tenha nenhuma vantagem; em alguns casos ele até parece um pouco mais expressivo
  Mas, no geral, passa a sensação de ter sido treinado com dados muito ruidosos, usa mais memória e também não é rápido
  Estou falando da versão 7B vibevoice-community, que chegou a ser publicada brevemente e logo foi retirada; hoje continuo usando chatterbox turbo e, às vezes, qwen TTS
- Não entendo por que isso de repente está recebendo tanta atenção hoje
  No Twitter só se fala disso
- O TTS também não foi bom
  Usei por alguns dias e, para começar, não existe documentação do modelo 1.5B, e o modelo realtime 0.5B era péssimo
  Ele convertia o texto linha por linha, inseria música aleatoriamente e nem conseguia lidar direito com caracteres especiais como …
  Sinceramente, foi bem decepcionante
- O SOTA atual está muito à frente disso
- Isso me fez economizar bastante tempo
  Já cancelei a estrela no repo e vou passar direto
Acho que já deveríamos parar de chamar modelos desse tipo de open source
Na prática, são apenas open weight; o código de treino é proprietário e nunca foi publicado
https://github.com/microsoft/VibeVoice/issues/102
- Agora vivemos num mundo em que até freeware é chamado de open source
  Desculpa, Stallman
- Eu reservo essa reclamação para modelos distribuídos com licenças não open source e que ainda assim são chamados de open source
  Quando um projeto diz que é open source, o mais importante para mim é o que eu realmente posso fazer com ele
- Esse barco já partiu
  A distinção entre open source vs open weight parece ter entrado na mesma categoria de hacker/cracker ou da discussão sobre a pronúncia de GIF
- Pensando pelo outro lado, se eu te entregar só o binário de um código MIT e nunca mandar o fonte, esse código ainda pode continuar sendo open source
  Só significa que você não tem acesso; a licença em si continua sendo MIT
  Ainda assim, concordo totalmente que a Microsoft está exagerando a abertura aqui, o que também não é nenhuma surpresa
- Pelo menos ser licenciado em MIT já é alguma coisa
  Dados de treino fechados também me incomodam, mas, para mim, licença restritiva incomoda mais
Nessa categoria, acho o Voxtral muito melhor
Além disso, ele é pequeno o suficiente para rodar em webGPU
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont publicou algo interessante sobre esse repo/produto/autor
https://cyberplace.social/@GossiTheDog/116454846703138243
- Impressiona como tentam esconder o link
Acho que não é aquele projeto que a Microsoft publicou e logo depois tirou do ar por motivos de segurança/safety?
Fico curioso sobre o que mudou desde então
- É só olhar a seção News do readme
  O modelo TTS original sumiu deste repo, embora ainda possa ser encontrado em outro lugar
  Em vez disso, os modelos SST/ASR, TTS long form e TTS streaming são mais novos
- Pelo menos para mim, isso tudo é bem confuso
  Porque esse projeto aborda várias áreas ao mesmo tempo, incluindo as que você acabou de citar
É curioso ver uma empresa como a Microsoft oficializando vibe como termo de produto de IA
- Ainda mais porque vibe coded pode ter uma conotação negativa de algo montado às pressas sem entendimento
- Também me pergunto se não seria um trocadilho com o amaldiçoado STT dos anos 90 da IBM, o Via Voice
- Na verdade, o mais surpreendente é que eles resistiram à tentação de chamar isso de Copilot
O speech-swift que eu criei também foca em processamento de voz on-device, como o VibeVoice
Só que foi feito para rodar ASR, TTS e VAD aproveitando o Apple Silicon, sem dependência de nuvem
O ASR suporta 52 idiomas e o real-time factor é 0.06
https://soniqo.audio/benchmarks
Gostei do post do Simon de ontem à noite
https://simonwillison.net/2026/Apr/27/vibevoice/
- Só para constar, aquele texto trata apenas da parte de Speech-to-Text / Speech-Recognition
  É uma área parecida com a do whisper; além disso, há modelos separados de TTS long-form e TTS streaming
- Dizem que o VibeVoice só consegue processar até 1 hora de áudio
  Fico curioso para saber o motivo
Selecionei Microsoft Sam como a voz padrão do computador
- Tenho lembranças de ficar com os amigos no laboratório de informática colocando strings enormes no Microsoft Sam para gerar efeitos sonoros engraçados
  Sususususususu
Uau, finalmente saiu um produto de IA da Microsoft com um nome que não é Copilot
- Se tivessem chamado de Vopilot, teria sido perfeito

VibeVoice - IA de voz open source de ponta

Leituras relacionadas

1 comentários

Comentários do Hacker News