12 pontos por xguru 2024-02-10 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Modelo TTS (texto para fala) de 1,2 bilhão de parâmetros, treinado com 100 mil horas de áudio
  • Ritmo e entonação de fala emocionais (em inglês)
  • Suporta clonagem de voz por meio de ajuste fino (no caso de falantes indianos, obteve sucesso com apenas cerca de 1 minuto de dados de voz)
  • Para vozes dos EUA/Reino Unido, é possível fazer clonagem Zero-Shot com apenas 30 segundos de áudio de referência
  • Suporta síntese de fala longa
  • Pode ser usado sem restrições sob a licença Apache 2.0

Ainda não há comentários.

Ainda não há comentários.