MetaVoice-1B - modelo Text-To-Speech de 1,2 bilhão de parâmetros

xguru · 2024-02-10T10:16:01+09:00

Modelo TTS (texto para fala) de 1,2 bilhão de parâmetros, treinado com 100 mil horas de áudio Ritmo e entonação de fala emocionais (em inglês) Suporta clonagem de voz por meio de ajuste fino (no caso de falantes indianos, obteve sucesso com apenas cerca de 1 minuto de dados de voz) Para vozes dos EUA/Reino Unido, é possível fazer clonagem Zero-Shot com apenas 30 segundos de áudio de referência Suporta síntese de fala longa Pode ser usado sem restrições sob a licença Apache 2.0

(github.com/metavoiceio)

12 pontos por xguru 2024-02-10 | Ainda não há comentários. | Compartilhar no WhatsApp

Modelo TTS (texto para fala) de 1,2 bilhão de parâmetros, treinado com 100 mil horas de áudio
Ritmo e entonação de fala emocionais (em inglês)
Suporta clonagem de voz por meio de ajuste fino (no caso de falantes indianos, obteve sucesso com apenas cerca de 1 minuto de dados de voz)
Para vozes dos EUA/Reino Unido, é possível fazer clonagem Zero-Shot com apenas 30 segundos de áudio de referência
Suporta síntese de fala longa
Pode ser usado sem restrições sob a licença Apache 2.0

MetaVoice-1B - modelo Text-To-Speech de 1,2 bilhão de parâmetros

Leituras relacionadas

Ainda não há comentários.