- Qwen3-TTS é uma série de modelos multilíngues de geração de voz que oferece suporte a clonagem de voz, design de voz, geração de voz humanoide de altíssima qualidade e controle baseado em linguagem natural
- Suporta 10 idiomas principais e diversos dialetos, incluindo chinês, inglês, japonês e coreano, e está disponível em dois tamanhos de modelo: 1.7B e 0.6B
- Por meio do encoder Qwen3-TTS-Tokenizer-12Hz, desenvolvido internamente, comprime com eficiência os sinais de voz e preserva integralmente informações não verbais e o ambiente acústico
- Com a arquitetura de streaming Dual-Track, gera imediatamente o primeiro pacote de áudio após a entrada de um único caractere e atinge desempenho de síntese em tempo real com latência de 97 ms
- Com o lançamento em open source, desenvolvedores e empresas podem usar diretamente tecnologia de geração de voz de alta qualidade
Visão geral do Qwen3-TTS
- O Qwen3-TTS é uma série de modelos de geração de voz de alto desempenho desenvolvida pela Qwen, integrando recursos de design, clonagem, geração e controle de voz
- Permite controlar timbre, emoção e entonação por meio de comandos em linguagem natural
- Pode ser acessado via Qwen API e GitHub
- Baseado no encoder multicodebook Qwen3-TTS-Tokenizer-12Hz, implementa restauração de voz em alta velocidade e alta fidelidade, além de compressão eficiente
- Suporta saída de voz em tempo real por caractere com streaming bidirecional Dual-Track
Composição do modelo
- O modelo completo é oferecido em dois tamanhos: 1.7B e 0.6B
- 1.7B: oferece o melhor desempenho e recursos de controle preciso
- 0.6B: equilíbrio entre desempenho e eficiência
- Ambos os modelos oferecem suporte a chinês, inglês, japonês, coreano, alemão, francês, russo, português, espanhol e italiano
- Permite clonagem rápida de voz com 3 segundos de entrada de áudio, também utilizável em fine-tuning (FT)
Principais características técnicas
- Alta expressividade de voz
- O Qwen3-TTS-Tokenizer-12Hz realiza modelagem semântica de alta dimensão e compressão do sinal acústico
- Preserva informações não verbais e sons do ambiente, e oferece restauração rápida com uma estrutura leve non-DiT
- Estrutura end-to-end multicodebook
- Elimina gargalos de informação e problemas de acúmulo de erros do método tradicional LM+DiT
- Melhora a versatilidade do modelo, a eficiência de geração e o limite máximo de desempenho
- Síntese por streaming de latência ultrabaixa
- A estrutura híbrida Dual-Track oferece suporte simultâneo a streaming e não streaming
- Gera o primeiro áudio após a entrada de um caractere, alcançando latência de 97 ms
- Compreensão inteligente de texto e controle de voz
- Controla atributos multidimensionais como timbre, emoção e prosódia com base em comandos em linguagem natural
- Ajusta automaticamente tom e ritmo de acordo com o significado do texto
Avaliação de desempenho do modelo
- Design de voz: no benchmark InstructTTS-Eval, alcançou melhor execução de instruções e expressividade do que o MiniMax-Voice-Design
- Controle de voz: na generalização multilíngue com único locutor, registrou WER de 2,34% e pontuação de controle de estilo de 75,4%
- Mesmo em síntese contínua de 10 minutos, manteve WER de 2,36% em chinês e 2,81% em inglês
- Clonagem de voz: no Seed-tts-eval, mostrou-se mais estável que MiniMax e SeedTTS
- Média em 10 idiomas de WER 1,835% e similaridade de locutor 0,789, superando o CosyVoice3
Desempenho do Tokenizer
- Alcançou SOTA no conjunto LibriSpeech test-clean
- PESQ: banda larga 3.21, banda estreita 3.68
- STOI: 0.96, UTMOS: 4.16
- Similaridade de locutor de 0.95, com preservação quase sem perdas das informações do locutor
Design de voz e amostras
- Permite geração de timbre personalizado com base em descrições em linguagem natural
- Controle detalhado de atributos como gênero, idade, emoção e entonação
- Exemplos: voz masculina autoritária, voz feminina emotiva, timbres por faixa etária
- O recurso Timbre Reuse permite salvar e reutilizar timbres gerados
- Pode ser usado em diálogos com múltiplos locutores ou em narrações longas
CustomVoice e controle de timbre
- Mesmo após fine-tuning por locutor, é possível manter o timbre-alvo e falar em vários idiomas
- Suporta tanto controle de atributo único quanto de múltiplos atributos
- Ex.: tristeza, raiva, sussurro, fala lenta e outros ajustes emocionais detalhados
- Oferece 9 conjuntos públicos de timbres
- Incluem chinês, inglês, japonês, coreano e dialetos
- Ex.: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) etc.
Voice Clone e clonagem multilíngue
- Realiza clonagem rápida de voz com 3 segundos de entrada de áudio
- Além de clonagem em chinês e inglês, oferece suporte a clonagem entre idiomas
- Ex.: fala multilíngue em japonês, coreano etc.
- Robustez a ruído em texto
- Pronuncia com precisão até frases com símbolos complexos, pinyin e caracteres especiais
Restauração de áudio baseada em Tokenizer
- Permite restaurar diversos elementos acústicos, como dialetos, canto, sons não verbais e ruído de fundo
- Comprova qualidade de reconstrução de alta fidelidade em relação ao original
3 comentários
Nossa, até roda em notebook.
Ultimamente, eu também tenho usado bastante modelos baseados em Qwen localmente.
No começo, achei que fosse só por ser um modelo da Alibaba, mas é impressionante como continuam melhorando e expandindo.
Comentários do Hacker News
Testei rodar no macOS usando mlx-audio. Foi possível graças ao tweet do Prince Canuma
O script que usei está aqui
Se você executar com
uv, ele baixa o modelo de 4,5 GB na primeira vez. O comando de exemplo é o seguinteuv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wavSe você quiser experimentar voice cloning por conta própria, dá para fazer isso na demo do Hugging Face
Vá para a aba "Voice Clone", cole o texto de exemplo, grave sua voz com o microfone e depois insira outro texto para gerar uma versão lida com a sua própria voz
Compartilhei as amostras de áudio que gerei aqui
Modelo interessante. Rodei o modelo 0.6B em uma GPU 1080 e consegui gerar em blocos de 200 caracteres sem OOM. Tentei fazer um audiolivro do Tao Te Ching, mas o resultado mudava toda vez, como uma roleta mágica. Algumas partes saíam claras, outras riam ou gemiam, então a emoção ficava totalmente inconsistente. A voz Ryan foi a mais estável, e Eric soava como um sotaque chinês exagerado. Se a emoção fosse consistente, seria o melhor TTS que já usei
Eu gostaria de pedir à equipe da Qwen que lançasse um modelo que superasse a capacidade de programação do Opus 4.5. Gosto dos modelos, mas não gosto da liderança fechada e da polarização política dessa empresa
Faz tempo que uma tecnologia não evolui de forma tão arrepiantemente rápida. Uso AI TTS desde 2018, mas este modelo foi o primeiro que me fez sentir que seria possível restaurar antigos dramas de rádio. Por exemplo, parece que seria possível reconstruir, pelo contexto, trechos em que algumas falas desapareceram por danos na fita. Talvez até seja possível reviver dezenas de horas de áudio de atores como Bob Bailey
Queria saber se alguém já tentou rodar isso em Mac. O guia de instalação parte do princípio de GPU NVIDIA (CUDA, FlashAttention), então não sei se funciona no backend PyTorch Metal/MPS
--no-flash-attn. Eu também faço isso no WindowsO último exemplo de Age Control foi configurado como “sotaque americano”, mas para mim soou como um australiano imitando sotaque americano
Parece realmente ideal para produção de audiolivros. Os AI TTS existentes ainda careciam de naturalidade
A indústria de dublagem/voice acting agora está lentamente chegando ao ponto. Algumas demos mostraram uma qualidade de voz muito mais refinada do que a de dubladores indie
Fico preocupado que minha avó algum dia seja enganada com isso