1 pontos por GN⁺ 11 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Consiste em uma família de modelos de IA de voz que inclui TTS e ASR, cobrindo tanto geração de voz longa quanto reconhecimento de fala de longa duração
  • A arquitetura central combina um tokenizador contínuo de voz de ultrabaixa taxa de quadros de 7.5 Hz com next-token diffusion, visando qualidade de áudio e eficiência computacional ao processar sequências longas
  • Para entender o contexto textual e o fluxo da conversa, usa um LLM; para gerar detalhes acústicos de alta fidelidade, adota uma estrutura com diffusion head
  • O VibeVoice-ASR processa até 60 minutos de áudio em uma única passada e gera transcrições estruturadas que incluem informações do falante, timestamps e conteúdo da fala
  • O modelo de ASR oferece suporte a mais de 50 idiomas e pode receber hotwords personalizadas ou informações de contexto para melhorar a precisão de reconhecimento em domínios específicos
  • No lado de ASR, foram disponibilizados código de finetuning e suporte a inferência com vLLM, além de uso direto pela biblioteca Hugging Face Transformers
  • O VibeVoice-TTS sintetiza voz de até 90 minutos em uma única passada e suporta até 4 falantes dentro de uma mesma conversa
  • O TTS enfatiza voz conversacional expressiva e consistência entre falantes, com suporte a inglês, chinês e outros idiomas
  • Segundo o aviso no repositório, o código do VibeVoice-TTS foi removido; está explícito que ele foi excluído após a identificação de usos incompatíveis com a intenção declarada após a publicação
  • O VibeVoice-Realtime-0.5B é um modelo de TTS em tempo real de escala 0.5B, com suporte a entrada de texto em streaming, cerca de 300 ms de latência até o primeiro áudio audível e geração de voz longa de cerca de 10 minutos
  • Ao modelo Realtime foram adicionados falantes experimentais multilíngues em 9 idiomas e 11 vozes em estilos de inglês; o repositório diz que pretende continuar ampliando os tipos de voz
  • Os caminhos de distribuição estão organizados principalmente em pesos no Hugging Face, Playground e Colab, permitindo testes rápidos
  • Este repositório é indicado somente para fins de pesquisa e desenvolvimento, e não é recomendado para uso comercial ou em ambientes reais sem testes e desenvolvimento adicionais
  • Os modelos podem herdar viés e erros do modelo base Qwen2.5 1.5b; devido aos riscos de deepfakes, impersonação e disseminação de desinformação, recomenda-se uso legal e responsável e divulgação de conteúdo gerado por IA

1 comentários

 
Comentários do Hacker News
  • Isso nem é um modelo novo e, pelos padrões de STT, tem muita alucinação, a inferência é pesada e lenta, e o desempenho multilíngue também não é grande coisa
    Não sei sobre os outros recursos; aqui estou falando puramente de speech to text

    • Não é que não tenha nenhuma vantagem; em alguns casos ele até parece um pouco mais expressivo
      Mas, no geral, passa a sensação de ter sido treinado com dados muito ruidosos, usa mais memória e também não é rápido
      Estou falando da versão 7B vibevoice-community, que chegou a ser publicada brevemente e logo foi retirada; hoje continuo usando chatterbox turbo e, às vezes, qwen TTS
    • Não entendo por que isso de repente está recebendo tanta atenção hoje
      No Twitter só se fala disso
    • O TTS também não foi bom
      Usei por alguns dias e, para começar, não existe documentação do modelo 1.5B, e o modelo realtime 0.5B era péssimo
      Ele convertia o texto linha por linha, inseria música aleatoriamente e nem conseguia lidar direito com caracteres especiais como
      Sinceramente, foi bem decepcionante
    • O SOTA atual está muito à frente disso
    • Isso me fez economizar bastante tempo
      Já cancelei a estrela no repo e vou passar direto
  • Acho que já deveríamos parar de chamar modelos desse tipo de open source
    Na prática, são apenas open weight; o código de treino é proprietário e nunca foi publicado
    https://github.com/microsoft/VibeVoice/issues/102

    • Agora vivemos num mundo em que até freeware é chamado de open source
      Desculpa, Stallman
    • Eu reservo essa reclamação para modelos distribuídos com licenças não open source e que ainda assim são chamados de open source
      Quando um projeto diz que é open source, o mais importante para mim é o que eu realmente posso fazer com ele
    • Esse barco já partiu
      A distinção entre open source vs open weight parece ter entrado na mesma categoria de hacker/cracker ou da discussão sobre a pronúncia de GIF
    • Pensando pelo outro lado, se eu te entregar só o binário de um código MIT e nunca mandar o fonte, esse código ainda pode continuar sendo open source
      Só significa que você não tem acesso; a licença em si continua sendo MIT
      Ainda assim, concordo totalmente que a Microsoft está exagerando a abertura aqui, o que também não é nenhuma surpresa
    • Pelo menos ser licenciado em MIT já é alguma coisa
      Dados de treino fechados também me incomodam, mas, para mim, licença restritiva incomoda mais
  • Nessa categoria, acho o Voxtral muito melhor
    Além disso, ele é pequeno o suficiente para rodar em webGPU
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • Kevin Beaumont publicou algo interessante sobre esse repo/produto/autor
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • Impressiona como tentam esconder o link
  • Acho que não é aquele projeto que a Microsoft publicou e logo depois tirou do ar por motivos de segurança/safety?
    Fico curioso sobre o que mudou desde então

    • É só olhar a seção News do readme
      O modelo TTS original sumiu deste repo, embora ainda possa ser encontrado em outro lugar
      Em vez disso, os modelos SST/ASR, TTS long form e TTS streaming são mais novos
    • Pelo menos para mim, isso tudo é bem confuso
      Porque esse projeto aborda várias áreas ao mesmo tempo, incluindo as que você acabou de citar
  • É curioso ver uma empresa como a Microsoft oficializando vibe como termo de produto de IA

    • Ainda mais porque vibe coded pode ter uma conotação negativa de algo montado às pressas sem entendimento
    • Também me pergunto se não seria um trocadilho com o amaldiçoado STT dos anos 90 da IBM, o Via Voice
    • Na verdade, o mais surpreendente é que eles resistiram à tentação de chamar isso de Copilot
  • O speech-swift que eu criei também foca em processamento de voz on-device, como o VibeVoice
    Só que foi feito para rodar ASR, TTS e VAD aproveitando o Apple Silicon, sem dependência de nuvem
    O ASR suporta 52 idiomas e o real-time factor é 0.06
    https://soniqo.audio/benchmarks

  • Gostei do post do Simon de ontem à noite
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • Só para constar, aquele texto trata apenas da parte de Speech-to-Text / Speech-Recognition
      É uma área parecida com a do whisper; além disso, há modelos separados de TTS long-form e TTS streaming
    • Dizem que o VibeVoice só consegue processar até 1 hora de áudio
      Fico curioso para saber o motivo
  • Selecionei Microsoft Sam como a voz padrão do computador

    • Tenho lembranças de ficar com os amigos no laboratório de informática colocando strings enormes no Microsoft Sam para gerar efeitos sonoros engraçados
      Sususususususu
  • Uau, finalmente saiu um produto de IA da Microsoft com um nome que não é Copilot

    • Se tivessem chamado de Vopilot, teria sido perfeito