24 pontos por xguru 2025-02-14 | 2 comentários | Compartilhar no WhatsApp
  • Modelo Open Weight de Text-To-Speech treinado com mais de 200.000 horas de dados de voz multilíngues
  • "Qualidade de voz equivalente ou superior" e "expressividade natural" em comparação com serviços comerciais de TTS
  • Saída de voz de alta qualidade com taxa de amostragem de 44 kHz
  • Suporte a clonagem de voz: é possível replicar com precisão o estilo de um locutor específico usando apenas alguns segundos de áudio de referência
  • Várias opções de controle: é possível controlar velocidade de fala, altura, qualidade da voz e emoções (alegria, medo, tristeza, raiva etc.)

Principais recursos

  • TTS zero-shot e clonagem de voz
    • Ao inserir texto e uma amostra de locutor de 10 a 30 segundos, é possível gerar imediatamente síntese de voz de alta qualidade
  • Suporte a entrada de prefixo de áudio
    • Ao adicionar um prefixo de áudio junto com o texto, é possível obter uma correspondência de locutor mais precisa
    • Eficaz para implementar estilos vocais específicos, como voz sussurrada
  • Suporte multilíngue
    • Suporta inglês, japonês, chinês, francês e alemão
  • Controle de emoções e qualidade da voz
    • Controle emocional: permite expressar alegria, raiva, tristeza, medo etc.
    • Ajuste detalhado da voz: permite ajustar velocidade, altura, frequência máxima e qualidade do áudio
  • Alto desempenho
    • Pode rodar a cerca de 2x a velocidade em tempo real em uma RTX 4090
  • Suporte a Gradio WebUI
    • Fornece uma interface web simples para que qualquer pessoa possa gerar voz facilmente
  • Instalação e implantação simples
    • Pode ser instalado e implantado facilmente com Docker

2 comentários

 
mindok 2025-02-14

É uma pena que não tenha coreano,,,

 
marantz 2025-02-19

Também funciona bem em coreano. Só fica um pouco estranho.