- Modelo Open Weight de Text-To-Speech treinado com mais de 200.000 horas de dados de voz multilíngues
- "Qualidade de voz equivalente ou superior" e "expressividade natural" em comparação com serviços comerciais de TTS
- Saída de voz de alta qualidade com taxa de amostragem de 44 kHz
- Suporte a clonagem de voz: é possível replicar com precisão o estilo de um locutor específico usando apenas alguns segundos de áudio de referência
- Várias opções de controle: é possível controlar velocidade de fala, altura, qualidade da voz e emoções (alegria, medo, tristeza, raiva etc.)
Principais recursos
- TTS zero-shot e clonagem de voz
- Ao inserir texto e uma amostra de locutor de 10 a 30 segundos, é possível gerar imediatamente síntese de voz de alta qualidade
- Suporte a entrada de prefixo de áudio
- Ao adicionar um prefixo de áudio junto com o texto, é possível obter uma correspondência de locutor mais precisa
- Eficaz para implementar estilos vocais específicos, como voz sussurrada
- Suporte multilíngue
- Suporta inglês, japonês, chinês, francês e alemão
- Controle de emoções e qualidade da voz
- Controle emocional: permite expressar alegria, raiva, tristeza, medo etc.
- Ajuste detalhado da voz: permite ajustar velocidade, altura, frequência máxima e qualidade do áudio
- Alto desempenho
- Pode rodar a cerca de 2x a velocidade em tempo real em uma RTX 4090
- Suporte a Gradio WebUI
- Fornece uma interface web simples para que qualquer pessoa possa gerar voz facilmente
- Instalação e implantação simples
- Pode ser instalado e implantado facilmente com Docker
2 comentários
É uma pena que não tenha coreano,,,
Também funciona bem em coreano. Só fica um pouco estranho.