MetaVoice-1B - modelo Text-To-Speech de 1,2 bilhão de parâmetros
(github.com/metavoiceio)- Modelo TTS (texto para fala) de 1,2 bilhão de parâmetros, treinado com 100 mil horas de áudio
- Ritmo e entonação de fala emocionais (em inglês)
- Suporta clonagem de voz por meio de ajuste fino (no caso de falantes indianos, obteve sucesso com apenas cerca de 1 minuto de dados de voz)
- Para vozes dos EUA/Reino Unido, é possível fazer clonagem Zero-Shot com apenas 30 segundos de áudio de referência
- Suporta síntese de fala longa
- Pode ser usado sem restrições sob a licença Apache 2.0
Ainda não há comentários.