Zonos - modelo de síntese de voz open weight de alta qualidade

xguru · 2025-02-14T10:23:01+09:00

Modelo Open Weight de Text-To-Speech treinado com mais de 200.000 horas de dados de voz multilíngues "Qualidade de voz equivalente ou superior" e "expressividade natural" em comparação com serviços comerciais de TTS Saída de voz de alta qualidade com taxa de amostragem de 44 kHz Suporte a clonagem de voz: é possível replicar com precisão o estilo de um locutor específico usando apenas alguns segundos de áudio de referência Várias opções de controle: é possível controlar velocidade de fala, altura, qualidade da voz e emoções (alegria, medo, tristeza, raiva etc.) Principais recursos TTS zero-shot e clonagem de voz Ao inserir texto e uma amostra de locutor de 10 a 30 segundos, é possível gerar imediatamente síntese de voz de alta qualidade Suporte a entrada de prefixo de áudio Ao adicionar um prefixo de áudio junto com o texto, é possível obter uma correspondência de locutor mais precisa Eficaz para implementar estilos vocais específicos, como voz sussurrada Suporte multilíngue Suporta inglês, japonês, chinês, francês e alemão Controle de emoções e qualidade da voz Controle emocional: permite expressar alegria, raiva, tristeza, medo etc. Ajuste detalhado da voz: permite ajustar velocidade, altura, frequência máxima e qualidade do áudio Alto desempenho Pode rodar a cerca de 2x a velocidade em tempo real em uma RTX 4090 Suporte a Gradio WebUI Fornece uma interface web simples para que qualquer pessoa possa gerar voz facilmente Instalação e implantação simples Pode ser instalado e implantado facilmente com Docker

(github.com/Zyphra)

24 pontos por xguru 2025-02-14 | 2 comentários | Compartilhar no WhatsApp

Modelo Open Weight de Text-To-Speech treinado com mais de 200.000 horas de dados de voz multilíngues
"Qualidade de voz equivalente ou superior" e "expressividade natural" em comparação com serviços comerciais de TTS
Saída de voz de alta qualidade com taxa de amostragem de 44 kHz
Suporte a clonagem de voz: é possível replicar com precisão o estilo de um locutor específico usando apenas alguns segundos de áudio de referência
Várias opções de controle: é possível controlar velocidade de fala, altura, qualidade da voz e emoções (alegria, medo, tristeza, raiva etc.)

Principais recursos

TTS zero-shot e clonagem de voz
- Ao inserir texto e uma amostra de locutor de 10 a 30 segundos, é possível gerar imediatamente síntese de voz de alta qualidade
Suporte a entrada de prefixo de áudio
- Ao adicionar um prefixo de áudio junto com o texto, é possível obter uma correspondência de locutor mais precisa
- Eficaz para implementar estilos vocais específicos, como voz sussurrada
Suporte multilíngue
- Suporta inglês, japonês, chinês, francês e alemão
Controle de emoções e qualidade da voz
- Controle emocional: permite expressar alegria, raiva, tristeza, medo etc.
- Ajuste detalhado da voz: permite ajustar velocidade, altura, frequência máxima e qualidade do áudio
Alto desempenho
- Pode rodar a cerca de 2x a velocidade em tempo real em uma RTX 4090
Suporte a Gradio WebUI
- Fornece uma interface web simples para que qualquer pessoa possa gerar voz facilmente
Instalação e implantação simples
- Pode ser instalado e implantado facilmente com Docker

2 comentários

mindok 2025-02-14

É uma pena que não tenha coreano,,,

marantz 2025-02-19

Também funciona bem em coreano. Só fica um pouco estranho.

Zonos - modelo de síntese de voz open weight de alta qualidade

Principais recursos

Leituras relacionadas

2 comentários