- Chatterbox é o mais recente modelo open source de TTS (síntese de voz) lançado pela Resemble AI
- Em avaliações comparativas com a concorrente ElevenLabs, mostrou resultados consistentemente preferidos
- Conta com recursos próprios, como controle de exagero emocional, permitindo uma ampla variedade de expressões vocais
- Foi treinado com um backbone Llama de 500 milhões de parâmetros e 500 mil horas de dados refinados
- Todas as vozes geradas incluem marca d’água Perth embutida, ajudando a prevenir uso não autorizado e adulteração
Introdução e importância do Chatterbox TTS
- Chatterbox é um modelo open source de TTS (texto para fala) de nível de produção desenvolvido pela Resemble AI
- Licenciado sob MIT, pode ser usado livremente, e foram divulgados resultados que comprovam qualidade superior mesmo em comparação com modelos comerciais de código fechado, como o ElevenLabs
- Pode ser aplicado em toda a criação de conteúdo, como vídeos, memes, jogos e agentes de IA, e é o primeiro TTS open source a oferecer controle de exagero emocional
- Pode ser demonstrado e usado na prática por meio do app Gradio no Hugging Face ou da própria API, e para escala maior ou alta precisão há uma API comercial (ultrabaixa latência abaixo de 200 ms)
Principais recursos
- TTS zero-shot de ponta: consegue expressar estilos variados de locutor sem necessidade de dados adicionais
- Backbone Llama 0.5B: aplica a estrutura de grandes modelos de linguagem à síntese de voz
- Ajuste de exagero/intensidade emocional: oferece controle refinado sobre a intensidade da personalidade/emoção de cada locutor
- Alignment-informed inference: reflete informações de alinhamento entre fonemas e áudio para entregar qualidade de geração extremamente estável
- 0,5 milhão de horas de dados refinados: treinamento realizado com um conjunto de dados de voz em larga escala e alta qualidade
- Marca d’água embutida: usa a marca d’água Perth (Perceptual Threshold) da Resemble AI para rastreamento do conteúdo gerado e prevenção de uso não autorizado
- Script de conversão de voz: inclui uma função de voice conversion fácil de usar
- Validação de desempenho: obteve avaliações superiores em relação ao ElevenLabs
Dicas de uso
- TTS geral/agentes de voz: com os valores padrão (Exaggeration=0.5, cfg_weight=0.5), entrega qualidade equilibrada na maioria dos cenários
- Para estilos de locutor com fala rápida, ajustar o valor de cfg_weight para perto de 0.3 pode proporcionar uma velocidade mais natural
- Síntese de voz emocional/dramática: aumentar Exaggeration para acima de 0.7 e reduzir cfg_weight reforça o efeito dramático da fala
- Quanto maior a intensidade emocional (exaggeration), mais rápida tende a ficar a fala; ao reduzir cfg_weight, é possível ajustar para uma fala mais lenta e clara
Idiomas suportados
- No momento, suporta apenas inglês
Open source de referência/dependências
- Incorpora várias tecnologias recentes de modelos de voz e linguagem, como Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3 e S3Tokenizer
Marca d’água Perth embutida
- Marca d’água Perth (Perceptual Threshold): insere uma marca d’água neural em todo áudio gerado sem degradar a qualidade do áudio
- A marca d’água é preservada mesmo após compressão em MP3, edição e processamento de áudio
- Permite detecção automática com precisão próxima de 100%, apoiando rastreamento da origem, prevenção contra adulteração e uso responsável de IA
Exemplo de extração da marca d’água
- É possível verificar se a marca d’água está presente com um script separado
- Com o pacote Python perth e o librosa, é possível extrair do áudio o valor da marca d’água (0 ou 1)
Comunidade
- Há uma comunidade oficial no Discord em funcionamento, aberta para participação e colaboração de qualquer pessoa
Isenção de responsabilidade
- Este modelo proíbe uso malicioso, e os prompts utilizam apenas dados publicados na internet
1 comentários
Comentários do Hacker News
Eles anunciam que, por serem imperceptible neural watermarks, elas sobrevivem a compressão MP3, edição de áudio e vários tipos de modificação, com precisão de detecção próxima de 100%
Mas fico pensando se não seria fácil desativar isso simplesmente comentando a chamada da função
apply_watermarkemtts.pyNesse tipo de marca-d'água, eu imaginava que a ideia fosse embutir isso no próprio modelo para que não pudesse ser removido com facilidade
Se, num modelo open source, a marca-d'água é adicionada como uma etapa separada de pós-processamento, então fica a dúvida de por que se dar ao trabalho de colocá-la
Como o filtro de conteúdo que existia no Stable Diffusion original
Também pode haver a intenção de evitar contaminação nos dados de treinamento
--no-watermarkNo fim, parece que isso foi colocado como uma “funcionalidade” para quem quiser incluir em um produto maior
Os líderes do mercado de TTS já estão bem definidos, e Resemble, PlayHT e afins precisam abrir peso e código-fonte para conseguir ao menos alguma participação de mercado entre desenvolvedores
A marca-d'água tem esse caráter de CYA para responder às críticas sobre uso indevido da mídia
Se não fizerem algo nessa linha, a mídia e o campo anti-IA (como a 404Media) vão levantar questões sobre abuso
O caminho certo é liberar código-fonte, pesos e oferecer API/opções de fine-tuning separadamente
Como referência, artigo da 404Media
Se os áudios de demo não forem exemplos excessivamente selecionados, acho que este é um lançamento realmente muito bom
Eu sempre digo isso, mas nas minhas experiências o gargalo real em IA de voz continua sendo mais o reconhecimento de fala (transcrição) do que a qualidade de TTS
A menos que algo tenha mudado recentemente, essa ainda é a limitação principal
Ainda não tentei passar para um LLM várias versões da mesma transcrição ou níveis de confiança, mas imagino que ele conseguiria usar isso muito bem
Também é divertido que a frase tenha sido tirada de Pulp Fiction
Os demos tradicionais são sempre tão sem graça e comportados que já cansam
Na comunidade indie de TTS usam muito o copypasta dos Navy Seals, então foi interessante ver uma empresa de serviço colocar esse tipo de frase, como a Resemble fez
Wiki de Copypasta, exemplo do copypasta Navy Seal
Quando coloquei meu sotaque australiano, ele saiu com uma pronúncia bem britânica, e ainda por cima um RP super suave
Soa muito natural, mas definitivamente não parece reproduzir meu sotaque
Para uso prático, muitas vezes o importante é uma voz clara e natural, então para esse tipo de caso ele serve perfeitamente
Entre os modelos “open” melhores, há:
Na prática, só o Seed-VC tem código de treinamento/fine-tuning, mas todos têm desempenho zeroshot melhor que o Chatterbox
Em especial o MegaTTS3, da ByteDance, está num nível que praticamente nenhuma empresa além da ElevenLabs consegue acompanhar
A ByteDance tem muito mais dinheiro, gente e dados do que todo mundo
Se o objetivo for reprodução de voz zeroshot sem fine-tuning, esses modelos são escolhas melhores
Com link para um modelo implantável
Ainda estão trabalhando no suporte a streaming
Mas, mesmo em sotaques relativamente comuns, acabam aparecendo traços de outros sotaques de forma inesperada, como uma gravação escocesa saindo com sotaque australiano
Também erra sotaque de Yorkshire
Então, no estado atual, ele exige um hardware de consumidor relativamente parrudo
Mas parece haver bastante espaço para otimização no futuro
Link da issue
Se o modelo realmente valer a pena, alguém provavelmente vai descobrir um jeito de rodar com menos VRAM
Na prática, testei numa Nvidia 2060 antiga e o pico de VRAM ficou em cerca de 5GB
Dá para rodar de graça, mas o custo real pode acabar eliminando a vantagem de fazer self-hosting
Queria saber se exigia GPU cara ou se rodava até num notebook de 12 anos atrás
Problemas que enfrentei:
pip install chatterbox-ttstem bug no modo CPU onlyprotobuf-compilerno DebianToda vez que tento rodar projeto Python dos outros, acabo cansado dessa mesma luta de sempre
O SparkTTS oferece um pouco mais de parâmetros, e o código no GitHub parece indicar possibilidades de controle emocional mais refinadas
No meu caso, já consegui me aproximar do conceito que queria exagerando nas instruções de prosody e tonality no texto com alguns modelos
Mesmo assim, ainda é muito mais trabalhoso do que o design emocional intuitivo da Elevenlabs
Ainda assim, é bem impressionante que ele chegue tão perto com uma amostra tão curta
E, se o sample wave one-shot vier com ruído, o Chatterbox às vezes ainda dá de bônus uns sons misteriosos no final
Especialmente ao ler algo como a Divina Comédia de Dante, vira uma experiência de “sons do inferno”
(A dúvida é só se a Amazon vai informar isso de forma explícita)
ferramenta de conversão para audiobook audiblez
Depois de um ano, certamente deve ter melhorado ainda mais