3 pontos por GN⁺ 2025-06-12 | 1 comentários | Compartilhar no WhatsApp
  • Chatterbox é o mais recente modelo open source de TTS (síntese de voz) lançado pela Resemble AI
  • Em avaliações comparativas com a concorrente ElevenLabs, mostrou resultados consistentemente preferidos
  • Conta com recursos próprios, como controle de exagero emocional, permitindo uma ampla variedade de expressões vocais
  • Foi treinado com um backbone Llama de 500 milhões de parâmetros e 500 mil horas de dados refinados
  • Todas as vozes geradas incluem marca d’água Perth embutida, ajudando a prevenir uso não autorizado e adulteração

Introdução e importância do Chatterbox TTS

  • Chatterbox é um modelo open source de TTS (texto para fala) de nível de produção desenvolvido pela Resemble AI
  • Licenciado sob MIT, pode ser usado livremente, e foram divulgados resultados que comprovam qualidade superior mesmo em comparação com modelos comerciais de código fechado, como o ElevenLabs
  • Pode ser aplicado em toda a criação de conteúdo, como vídeos, memes, jogos e agentes de IA, e é o primeiro TTS open source a oferecer controle de exagero emocional
  • Pode ser demonstrado e usado na prática por meio do app Gradio no Hugging Face ou da própria API, e para escala maior ou alta precisão há uma API comercial (ultrabaixa latência abaixo de 200 ms)

Principais recursos

  • TTS zero-shot de ponta: consegue expressar estilos variados de locutor sem necessidade de dados adicionais
  • Backbone Llama 0.5B: aplica a estrutura de grandes modelos de linguagem à síntese de voz
  • Ajuste de exagero/intensidade emocional: oferece controle refinado sobre a intensidade da personalidade/emoção de cada locutor
  • Alignment-informed inference: reflete informações de alinhamento entre fonemas e áudio para entregar qualidade de geração extremamente estável
  • 0,5 milhão de horas de dados refinados: treinamento realizado com um conjunto de dados de voz em larga escala e alta qualidade
  • Marca d’água embutida: usa a marca d’água Perth (Perceptual Threshold) da Resemble AI para rastreamento do conteúdo gerado e prevenção de uso não autorizado
  • Script de conversão de voz: inclui uma função de voice conversion fácil de usar
  • Validação de desempenho: obteve avaliações superiores em relação ao ElevenLabs

Dicas de uso

  • TTS geral/agentes de voz: com os valores padrão (Exaggeration=0.5, cfg_weight=0.5), entrega qualidade equilibrada na maioria dos cenários
    • Para estilos de locutor com fala rápida, ajustar o valor de cfg_weight para perto de 0.3 pode proporcionar uma velocidade mais natural
  • Síntese de voz emocional/dramática: aumentar Exaggeration para acima de 0.7 e reduzir cfg_weight reforça o efeito dramático da fala
    • Quanto maior a intensidade emocional (exaggeration), mais rápida tende a ficar a fala; ao reduzir cfg_weight, é possível ajustar para uma fala mais lenta e clara

Idiomas suportados

  • No momento, suporta apenas inglês

Open source de referência/dependências

  • Incorpora várias tecnologias recentes de modelos de voz e linguagem, como Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3 e S3Tokenizer

Marca d’água Perth embutida

  • Marca d’água Perth (Perceptual Threshold): insere uma marca d’água neural em todo áudio gerado sem degradar a qualidade do áudio
  • A marca d’água é preservada mesmo após compressão em MP3, edição e processamento de áudio
  • Permite detecção automática com precisão próxima de 100%, apoiando rastreamento da origem, prevenção contra adulteração e uso responsável de IA

Exemplo de extração da marca d’água

  • É possível verificar se a marca d’água está presente com um script separado
  • Com o pacote Python perth e o librosa, é possível extrair do áudio o valor da marca d’água (0 ou 1)

Comunidade

  • Há uma comunidade oficial no Discord em funcionamento, aberta para participação e colaboração de qualquer pessoa

Isenção de responsabilidade

  • Este modelo proíbe uso malicioso, e os prompts utilizam apenas dados publicados na internet

1 comentários

 
GN⁺ 2025-06-12
Comentários do Hacker News
  • Vi o aviso de que todo arquivo de áudio gerado pelo Chatterbox inclui a marca-d'água Perth (Perceptual Threshold) da Resemble AI
    Eles anunciam que, por serem imperceptible neural watermarks, elas sobrevivem a compressão MP3, edição de áudio e vários tipos de modificação, com precisão de detecção próxima de 100%
    Mas fico pensando se não seria fácil desativar isso simplesmente comentando a chamada da função apply_watermark em tts.py
    Nesse tipo de marca-d'água, eu imaginava que a ideia fosse embutir isso no próprio modelo para que não pudesse ser removido com facilidade
    Se, num modelo open source, a marca-d'água é adicionada como uma etapa separada de pós-processamento, então fica a dúvida de por que se dar ao trabalho de colocá-la
  • Suponho que isso seja meio que um gesto de CYA (Cover Your Ass, autoproteção)
    Como o filtro de conteúdo que existia no Stable Diffusion original
    Também pode haver a intenção de evitar contaminação nos dados de treinamento
  • O parser inclusive tem uma flag --no-watermark
    No fim, parece que isso foi colocado como uma “funcionalidade” para quem quiser incluir em um produto maior
  • Empresas que não sejam OpenAI, Google ou ElevenLabs vão se tornar totalmente irrelevantes se não fizerem open source de forma agressiva
    Os líderes do mercado de TTS já estão bem definidos, e Resemble, PlayHT e afins precisam abrir peso e código-fonte para conseguir ao menos alguma participação de mercado entre desenvolvedores
    A marca-d'água tem esse caráter de CYA para responder às críticas sobre uso indevido da mídia
    Se não fizerem algo nessa linha, a mídia e o campo anti-IA (como a 404Media) vão levantar questões sobre abuso
    O caminho certo é liberar código-fonte, pesos e oferecer API/opções de fine-tuning separadamente
    Como referência, artigo da 404Media
  • A página de demonstração está aqui
    Se os áudios de demo não forem exemplos excessivamente selecionados, acho que este é um lançamento realmente muito bom
    Eu sempre digo isso, mas nas minhas experiências o gargalo real em IA de voz continua sendo mais o reconhecimento de fala (transcrição) do que a qualidade de TTS
    A menos que algo tenha mudado recentemente, essa ainda é a limitação principal
  • Pela minha experiência recente, os LLMs já conseguem ler e aproveitar bem até erros de transcrição
    Ainda não tentei passar para um LLM várias versões da mesma transcrição ou níveis de confiança, mas imagino que ele conseguiria usar isso muito bem
  • Já usei Speechmatics na prática, e achei a qualidade de transcrição bem utilizável
  • Testando diretamente no demo do Huggingface, achei que a expressão emocional não era tão natural quanto no demo da página, e deu mesmo a impressão de exemplos selecionados
  • Fico pensando se não seria possível superar o problema de transcrição com dados sintéticos
  • Gostei muito de ver palavrão explícito no demo
    Também é divertido que a frase tenha sido tirada de Pulp Fiction
    Os demos tradicionais são sempre tão sem graça e comportados que já cansam
    Na comunidade indie de TTS usam muito o copypasta dos Navy Seals, então foi interessante ver uma empresa de serviço colocar esse tipo de frase, como a Resemble fez
    Wiki de Copypasta, exemplo do copypasta Navy Seal
  • Dá para testar de graça aqui
  • Brinquei com isso e foi divertido
    Quando coloquei meu sotaque australiano, ele saiu com uma pronúncia bem britânica, e ainda por cima um RP super suave
    Soa muito natural, mas definitivamente não parece reproduzir meu sotaque
    Para uso prático, muitas vezes o importante é uma voz clara e natural, então para esse tipo de caso ele serve perfeitamente
  • Infelizmente, o código de treinamento e fine-tuning não foi liberado, então não chega a ser “totalmente aberto” como Flux ou Stable Diffusion
    Entre os modelos “open” melhores, há:
    • Zeroshot TTS: MaskGCT, MegaTTS3
    • Zeroshot VC: Seed-VC, MegaTTS3
      Na prática, só o Seed-VC tem código de treinamento/fine-tuning, mas todos têm desempenho zeroshot melhor que o Chatterbox
      Em especial o MegaTTS3, da ByteDance, está num nível que praticamente nenhuma empresa além da ElevenLabs consegue acompanhar
      A ByteDance tem muito mais dinheiro, gente e dados do que todo mundo
      Se o objetivo for reprodução de voz zeroshot sem fine-tuning, esses modelos são escolhas melhores
  • Também saiu open source um exemplo de implementação de API TTS pronta para produção
    Com link para um modelo implantável
  • Há também um exemplo de código de inferência e clonagem de voz
    Ainda estão trabalhando no suporte a streaming
  • Acho que ele funciona de forma excelente com sotaques realmente comuns
    Mas, mesmo em sotaques relativamente comuns, acabam aparecendo traços de outros sotaques de forma inesperada, como uma gravação escocesa saindo com sotaque australiano
    Também erra sotaque de Yorkshire
  • Quando coloquei um sotaque escocês, até o meu próprio sotaque australiano acabou virando RP britânico
  • A opinião aqui é que isso tem mais a ver com as características do sotaque escocês do que com o modelo
  • Passa mesmo uma sensação de ator treinado em sotaque britânico
  • Pergunta sobre hardware: queria saber se roda em especificações mínimas
  • Segundo a página de issues no GitHub, a otimização ainda não está muito boa
    Então, no estado atual, ele exige um hardware de consumidor relativamente parrudo
    Mas parece haver bastante espaço para otimização no futuro
    Link da issue
  • Segundo esta issue, são necessários 6~7GB de VRAM
    Se o modelo realmente valer a pena, alguém provavelmente vai descobrir um jeito de rodar com menos VRAM
    Na prática, testei numa Nvidia 2060 antiga e o pico de VRAM ficou em cerca de 5GB
  • Essa pergunta não é nada trivial; pelo contrário, é uma das melhores perguntas
    Dá para rodar de graça, mas o custo real pode acabar eliminando a vantagem de fazer self-hosting
  • Eu também fui atrás disso porque tinha a mesma dúvida
    Queria saber se exigia GPU cara ou se rodava até num notebook de 12 anos atrás
  • Eu ia compartilhar minha experiência rodando em CPU antiga, mas fiquei mais de 30 minutos só em instalação e erros
    Problemas que enfrentei:
    • Python 3.13 sem suporte, e tive de recriar o ambiente virtual em 3.12 com uv
    • numpy 1.26.4 não era reconhecido, e o uv pip só pesquisava no repositório do pytorch
    • a versão de pip install chatterbox-tts tem bug no modo CPU only
    • a versão main padrão exige protobuf-compiler no Debian
    • erro desconhecido de CMake reclamando da ausência de headers de desenvolvimento do Python
      Toda vez que tento rodar projeto Python dos outros, acabo cansado dessa mesma luta de sempre
  • Achei interessante o exagero na expressão emocional, mas ainda não encontrei nenhum serviço que permita “esculpir” a voz desejada só com descrição textual no nível da Elevenlabs
    O SparkTTS oferece um pouco mais de parâmetros, e o código no GitHub parece indicar possibilidades de controle emocional mais refinadas
    No meu caso, já consegui me aproximar do conceito que queria exagerando nas instruções de prosody e tonality no texto com alguns modelos
    Mesmo assim, ainda é muito mais trabalhoso do que o design emocional intuitivo da Elevenlabs
  • Testei o demo usando um trecho da minha própria voz, e minhas impressões foram:
    • a saída até captou um pouco da sensação da minha voz, mas não ficou extremamente parecida
      Ainda assim, é bem impressionante que ele chegue tão perto com uma amostra tão curta
    • se eu aumentasse um pouco os valores de CFG/pace, o áudio imediatamente ficava ininteligível
    • meu sotaque é australiano, mas a saída variava entre britânico e americano
    • a expressão emocional exagerada era divertida, mas a emoção que saía mudava a cada tentativa
  • Fico curioso para saber se esse tipo de modelo TTS consegue sustentar uma leitura convincente de um livro inteiro, ou se a consistência da voz começa a se perder depois de alguns parágrafos
  • A maioria dos sistemas de TTS perde qualidade em textos longos, então na prática é melhor dividir a leitura em parágrafos e depois juntar tudo de novo
    E, se o sample wave one-shot vier com ruído, o Chatterbox às vezes ainda dá de bônus uns sons misteriosos no final
    Especialmente ao ler algo como a Divina Comédia de Dante, vira uma experiência de “sons do inferno”
  • Quando a qualidade ficar boa o bastante, imagino que a Audible vai ficar cheia de audiolivros narrados por IA
    (A dúvida é só se a Amazon vai informar isso de forma explícita)
  • Eu mesmo gerei um audiolivro a partir de um epub e tive um resultado nada mal com essa ferramenta
    ferramenta de conversão para audiobook audiblez
  • Estou prestando consultoria para empresas dessa área e afirmo com tranquilidade: com a tecnologia atual, já não há problema algum para leitura de livros
  • Um ano atrás, por brincadeira, sintetizei para um amigo um audiolivro de terapia de Carl Rogers no estilo Attenbrough, e já naquela época a qualidade era muito boa
    Depois de um ano, certamente deve ter melhorado ainda mais