31 pontos por GN⁺ 2026-01-23 | 3 comentários | Compartilhar no WhatsApp
  • Qwen3-TTS é uma série de modelos multilíngues de geração de voz que oferece suporte a clonagem de voz, design de voz, geração de voz humanoide de altíssima qualidade e controle baseado em linguagem natural
  • Suporta 10 idiomas principais e diversos dialetos, incluindo chinês, inglês, japonês e coreano, e está disponível em dois tamanhos de modelo: 1.7B e 0.6B
  • Por meio do encoder Qwen3-TTS-Tokenizer-12Hz, desenvolvido internamente, comprime com eficiência os sinais de voz e preserva integralmente informações não verbais e o ambiente acústico
  • Com a arquitetura de streaming Dual-Track, gera imediatamente o primeiro pacote de áudio após a entrada de um único caractere e atinge desempenho de síntese em tempo real com latência de 97 ms
  • Com o lançamento em open source, desenvolvedores e empresas podem usar diretamente tecnologia de geração de voz de alta qualidade

Visão geral do Qwen3-TTS

  • O Qwen3-TTS é uma série de modelos de geração de voz de alto desempenho desenvolvida pela Qwen, integrando recursos de design, clonagem, geração e controle de voz
    • Permite controlar timbre, emoção e entonação por meio de comandos em linguagem natural
    • Pode ser acessado via Qwen API e GitHub
  • Baseado no encoder multicodebook Qwen3-TTS-Tokenizer-12Hz, implementa restauração de voz em alta velocidade e alta fidelidade, além de compressão eficiente
  • Suporta saída de voz em tempo real por caractere com streaming bidirecional Dual-Track

Composição do modelo

  • O modelo completo é oferecido em dois tamanhos: 1.7B e 0.6B
    • 1.7B: oferece o melhor desempenho e recursos de controle preciso
    • 0.6B: equilíbrio entre desempenho e eficiência
  • Ambos os modelos oferecem suporte a chinês, inglês, japonês, coreano, alemão, francês, russo, português, espanhol e italiano
  • Permite clonagem rápida de voz com 3 segundos de entrada de áudio, também utilizável em fine-tuning (FT)

Principais características técnicas

  • Alta expressividade de voz
    • O Qwen3-TTS-Tokenizer-12Hz realiza modelagem semântica de alta dimensão e compressão do sinal acústico
    • Preserva informações não verbais e sons do ambiente, e oferece restauração rápida com uma estrutura leve non-DiT
  • Estrutura end-to-end multicodebook
    • Elimina gargalos de informação e problemas de acúmulo de erros do método tradicional LM+DiT
    • Melhora a versatilidade do modelo, a eficiência de geração e o limite máximo de desempenho
  • Síntese por streaming de latência ultrabaixa
    • A estrutura híbrida Dual-Track oferece suporte simultâneo a streaming e não streaming
    • Gera o primeiro áudio após a entrada de um caractere, alcançando latência de 97 ms
  • Compreensão inteligente de texto e controle de voz
    • Controla atributos multidimensionais como timbre, emoção e prosódia com base em comandos em linguagem natural
    • Ajusta automaticamente tom e ritmo de acordo com o significado do texto

Avaliação de desempenho do modelo

  • Design de voz: no benchmark InstructTTS-Eval, alcançou melhor execução de instruções e expressividade do que o MiniMax-Voice-Design
  • Controle de voz: na generalização multilíngue com único locutor, registrou WER de 2,34% e pontuação de controle de estilo de 75,4%
    • Mesmo em síntese contínua de 10 minutos, manteve WER de 2,36% em chinês e 2,81% em inglês
  • Clonagem de voz: no Seed-tts-eval, mostrou-se mais estável que MiniMax e SeedTTS
    • Média em 10 idiomas de WER 1,835% e similaridade de locutor 0,789, superando o CosyVoice3

Desempenho do Tokenizer

  • Alcançou SOTA no conjunto LibriSpeech test-clean
    • PESQ: banda larga 3.21, banda estreita 3.68
    • STOI: 0.96, UTMOS: 4.16
    • Similaridade de locutor de 0.95, com preservação quase sem perdas das informações do locutor

Design de voz e amostras

  • Permite geração de timbre personalizado com base em descrições em linguagem natural
    • Controle detalhado de atributos como gênero, idade, emoção e entonação
    • Exemplos: voz masculina autoritária, voz feminina emotiva, timbres por faixa etária
  • O recurso Timbre Reuse permite salvar e reutilizar timbres gerados
    • Pode ser usado em diálogos com múltiplos locutores ou em narrações longas

CustomVoice e controle de timbre

  • Mesmo após fine-tuning por locutor, é possível manter o timbre-alvo e falar em vários idiomas
  • Suporta tanto controle de atributo único quanto de múltiplos atributos
    • Ex.: tristeza, raiva, sussurro, fala lenta e outros ajustes emocionais detalhados
  • Oferece 9 conjuntos públicos de timbres
    • Incluem chinês, inglês, japonês, coreano e dialetos
    • Ex.: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) etc.

Voice Clone e clonagem multilíngue

  • Realiza clonagem rápida de voz com 3 segundos de entrada de áudio
    • Além de clonagem em chinês e inglês, oferece suporte a clonagem entre idiomas
    • Ex.: fala multilíngue em japonês, coreano etc.
  • Robustez a ruído em texto
    • Pronuncia com precisão até frases com símbolos complexos, pinyin e caracteres especiais

Restauração de áudio baseada em Tokenizer

  • Permite restaurar diversos elementos acústicos, como dialetos, canto, sons não verbais e ruído de fundo
  • Comprova qualidade de reconstrução de alta fidelidade em relação ao original

3 comentários

 
sudosudo 2026-01-24

Nossa, até roda em notebook.

 
xguru 2026-01-23

Ultimamente, eu também tenho usado bastante modelos baseados em Qwen localmente.
No começo, achei que fosse só por ser um modelo da Alibaba, mas é impressionante como continuam melhorando e expandindo.

 
GN⁺ 2026-01-23
Comentários do Hacker News
  • Testei rodar no macOS usando mlx-audio. Foi possível graças ao tweet do Prince Canuma
    O script que usei está aqui
    Se você executar com uv, ele baixa o modelo de 4,5 GB na primeira vez. O comando de exemplo é o seguinte
    uv run https://tools.simonwillison.net/python/q3_tts.py 'I am a pirate, give me your gold!' -i 'gruff voice' -o pirate.wav

    • Muito legal. Mais uma vitória do uv
  • Se você quiser experimentar voice cloning por conta própria, dá para fazer isso na demo do Hugging Face
    Vá para a aba "Voice Clone", cole o texto de exemplo, grave sua voz com o microfone e depois insira outro texto para gerar uma versão lida com a sua própria voz
    Compartilhei as amostras de áudio que gerei aqui

    • Sinceramente, isso parece um pouco assustador. Junto com o z-image-turbo, agora temos que presumir que tudo na tela pode ser falso. Entramos numa era em que nada é confiável sem verificação criptográfica
    • A demo do HF estava sobrecarregada, mas localmente funcionou bem. O modelo 1.7B capta bem o tom do falante, mas falta variação de entonação, então soa monótono. Acho que é porque a demo não expõe os controles de expressividade. Mesmo assim, era muito melhor em tratamento de ruído do que o 0.6B. Sem FlashAttention, ficou lento, cerca de 0,3x em uma GPU 5090, mas a qualidade foi impressionante
    • Tecnologia incrível. A minha voz clonada realmente soava como eu. Parece ter muitos usos bons e ruins — por exemplo, desde uma avó falecida lendo livros infantis para os netos até golpes ou produção automática de podcasts
    • Só com a gravação publicada é difícil avaliar a qualidade da clonagem. Também precisaria haver uma amostra da voz original
    • Brinquei com isso e foi divertido. Se eu gravar alguns minutos da minha voz, talvez um dia eu consiga fazer um audiolivro em que eu leio para mim mesmo
  • Modelo interessante. Rodei o modelo 0.6B em uma GPU 1080 e consegui gerar em blocos de 200 caracteres sem OOM. Tentei fazer um audiolivro do Tao Te Ching, mas o resultado mudava toda vez, como uma roleta mágica. Algumas partes saíam claras, outras riam ou gemiam, então a emoção ficava totalmente inconsistente. A voz Ryan foi a mais estável, e Eric soava como um sotaque chinês exagerado. Se a emoção fosse consistente, seria o melhor TTS que já usei

    • Você tentou especificar a emoção manualmente? Se deixar em branco, talvez esteja configurado como emoção aleatória (rng)
    • Fiquei curioso sobre o RTF (relação de tempo real) na 1080. Estou verificando se o modelo 0.6B consegue inferência em tempo real em dispositivos edge
  • Eu gostaria de pedir à equipe da Qwen que lançasse um modelo que superasse a capacidade de programação do Opus 4.5. Gosto dos modelos, mas não gosto da liderança fechada e da polarização política dessa empresa

    • Talvez este seja o comentário que eles estavam esperando
    • Estou com o mesmo problema (sou dinamarquês). Testei com Open Code e Minimax m2.1 (US$ 10/mês), e funcionou muito bem. GLM 4.7 também é excelente. Há uma comparação detalhada neste post. Não há motivo para enviar dinheiro para uma empresa de que você não gosta
    • Fiquei curioso sobre o que significa “politicamente divisiva”
    • Estou tendo bons resultados com o GLM 4.7. Deixo duas contas max rodando 24/7 e faço parte das revisões de código com Claude. Se custo for o problema, o GLM 4.7 é uma boa escolha
    • Queria perguntar se você já tentou o recém-lançado GLM 4.7
  • Faz tempo que uma tecnologia não evolui de forma tão arrepiantemente rápida. Uso AI TTS desde 2018, mas este modelo foi o primeiro que me fez sentir que seria possível restaurar antigos dramas de rádio. Por exemplo, parece que seria possível reconstruir, pelo contexto, trechos em que algumas falas desapareceram por danos na fita. Talvez até seja possível reviver dezenas de horas de áudio de atores como Bob Bailey

    • As amostras que ouvi soavam como dublagem de anime estilo Miyazaki. Fiquei me perguntando se foi treinado com esse tipo de dado
    • Eu também estou planejando um projeto para restaurar episódios de rádio de “Have Gun - Will Travel”. Se desse para recuperar partes difíceis de entender por causa de danos na fita ou interferência de efeitos sonoros, seria realmente incrível. Claro que o potencial de abuso também é enorme
  • Queria saber se alguém já tentou rodar isso em Mac. O guia de instalação parte do princípio de GPU NVIDIA (CUDA, FlashAttention), então não sei se funciona no backend PyTorch Metal/MPS

    • Dá para rodar sem FlashAttention com a opção --no-flash-attn. Eu também faço isso no Windows
    • Recomendo usar modal para alugar um ambiente Metal
    • No momento não dá, por causa da dependência do FlashAttention. Espero que alguém faça um port para Metal
  • O último exemplo de Age Control foi configurado como “sotaque americano”, mas para mim soou como um australiano imitando sotaque americano

  • Parece realmente ideal para produção de audiolivros. Os AI TTS existentes ainda careciam de naturalidade

  • A indústria de dublagem/voice acting agora está lentamente chegando ao ponto. Algumas demos mostraram uma qualidade de voz muito mais refinada do que a de dubladores indie

  • Fico preocupado que minha avó algum dia seja enganada com isso

    • Até agora, isso parece ser o principal caso de uso
    • Mas as avós de hoje em dia são da geração do QVC e dos videntes por telefone, então talvez agora não caiam tão facilmente nesse tipo de coisa