Superando o vale da estranheza da voz conversacional
(sesame.com)- Para assistentes de voz digitais de uso prolongado, a presença vocal (voice presence), que reflete emoção, ritmo e contexto, é mais importante do que uma voz sintética limpa, e a Sesame propõe o Conversational Speech Model para isso
- O CSM é um transformer multimodal end-to-end que processa texto e voz em conjunto, projetado para gerar falas mais naturais e consistentes usando o histórico da conversa
- O modelo lida diretamente com tokens RVQ, mas é dividido entre um backbone responsável pelo codebook 0 e um pequeno decodificador de áudio que reconstrói os demais codebooks, buscando equilibrar latência e expressividade
- Foram treinados três tamanhos, Tiny, Small e Medium, com cerca de 1 milhão de horas de dados públicos de áudio majoritariamente em inglês, e além de WER e similaridade de locutor, foram adicionadas avaliações de pronúncia de homógrafos e consistência de pronúncia
- Sem contexto, não houve uma diferença clara de preferência entre o CSM-Medium e a fala real, mas quando se fornece contexto de conversa, as gravações reais foram preferidas como continuação mais apropriada, mostrando que ainda existe uma lacuna na prosódia conversacional
Presença vocal e objetivo
- O objetivo da Sesame é implementar uma presença vocal que faça a fala parecer realmente compreendida e valorizada
- Os assistentes de voz digitais atuais muitas vezes permanecem em um tom neutro, o que dificulta seu uso contínuo no dia a dia depois que a novidade inicial passa
- Os componentes necessários são resumidos em quatro pontos
- Inteligência emocional: ler e responder ao contexto emocional
- Dinâmica conversacional: lidar com timing natural, pausas, interrupções e ênfase
- Consciência de contexto: ajustar tom e estilo de acordo com a situação
- Personalidade consistente: manter uma presença confiável e apropriada
- O companion da demo atual está otimizado para enfatizar proximidade e expressividade, enquanto personalidade, memória, expressividade e adequação ainda estão em aprimoramento
Formulação do problema no Conversational Speech Model
- O TTS tradicional gera voz diretamente a partir de texto, mas carece da consciência de contexto necessária para conversas naturais
- Mesmo que modelos recentes consigam criar vozes parecidas com as humanas, há várias formas de dizer uma mesma frase, e apenas algumas se encaixam em uma situação específica
- Sem contexto adicional como tom, ritmo e histórico da conversa, é difícil para o modelo escolher a forma mais apropriada de enunciar
- O CSM aborda esse problema com aprendizado multimodal end-to-end, permitindo que o transformer use o histórico da conversa para gerar voz mais natural e consistente
- Há duas características centrais
- Funciona como um modelo de etapa única, aumentando eficiência e expressividade
- Em um cenário em que as avaliações públicas gerais estão saturadas, usa um conjunto separado de avaliações para medir avanços na capacidade de contexto
Tokens de áudio e o design RVQ
- Para modelar áudio com transformer, a forma de onda contínua é convertida em uma sequência discreta de tokens de áudio
- Abordagens modernas normalmente usam dois tipos de tokens
- Tokens semânticos: comprimem significado e características fonêmicas, sacrificando representação de alta fidelidade
- Tokens acústicos: carregam informações acústicas detalhadas, permitindo reconstrução em alta fidelidade e preservando características como identidade do locutor e timbre
- A abordagem comum é modelar primeiro os tokens semânticos e depois gerar o áudio com RVQ ou métodos baseados em difusão
- Essa abordagem em duas etapas permite síntese estruturada, mas cria um gargalo em que os tokens semânticos precisam carregar prosódia suficiente
- Métodos baseados em RVQ precisam lidar com dependência sequencial entre codebooks dentro de um mesmo frame
- O delay pattern desloca progressivamente os codebooks mais altos para condicioná-los aos codebooks mais baixos do mesmo frame
- Se o tokenizer RVQ tiver N codebooks, são necessários N passos de backbone antes de decodificar o primeiro trecho de áudio, o que piora o time-to-first-audio
- Isso funciona bem para usos offline como audiobooks, mas a latência vira um problema em cenários em tempo real
Estrutura do CSM e método de inferência
- O CSM é um modelo multimodal de texto e fala que lida diretamente com tokens RVQ
- A estrutura é dividida em dois transformers autorregressivos
- O primeiro backbone multimodal recebe texto e áudio de forma intercalada e modela o codebook 0
- O segundo decodificador de áudio modela os N−1 codebooks restantes e reconstrói a fala usando uma linear head separada para cada codebook
- O decodificador é muito menor que o backbone, permitindo geração com baixa latência enquanto mantém o modelo end-to-end
- A inferência segue o fluxo abaixo
- Tokens de texto e tokens de áudio são inseridos sequencialmente no backbone
- O backbone prevê o nível do codebook 0
- O decodificador amostra os níveis de 1 até N−1 condicionado ao nível 0
- Os tokens de áudio reconstruídos são reinseridos autorregressivamente no backbone para a próxima etapa
- Quando o símbolo audio EOT aparece, a geração termina, e na próxima solicitação o áudio intermediário, como a fala do usuário, é representado por tokens de áudio e transcrição em texto
- Os dois transformers são variantes da arquitetura Llama, e os tokens de texto são gerados com o tokenizer do Llama
- O áudio é processado pelo Mimi, um tokenizer split-RVQ que gera 1 codebook semântico e N−1 codebooks acústicos por frame a 12.5Hz
- As amostras de treinamento seguem um padrão alternado entre texto e áudio, e a identidade do locutor é codificada diretamente na representação textual
Eficiência de treinamento e dados
- Durante o treinamento, o decodificador de áudio processa autorregressivamente o tamanho de batch efetivo B×S e N codebooks, o que cria uma grande carga de memória
- Essa carga desacelera o treinamento até em modelos pequenos e dificulta a expansão do modelo e a realização de experimentos rápidos
- A Sesame usa compute amortization para reduzir esse gargalo mantendo a fidelidade de todos os codebooks RVQ
- O decodificador de áudio é treinado apenas em um subconjunto aleatório de 1/16 dos frames de áudio
- O codebook 0 é treinado em todos os frames
- Nesse método, não foi observada diferença perceptível na perda do decodificador de áudio durante o treinamento
- O dataset é construído a partir de áudio público transcrito, com separação de locutores, segmentação e filtragem
- Após a filtragem, os dados somam cerca de 1 milhão de horas e são majoritariamente em inglês
- Foram treinados três tamanhos de modelo
- Tiny: backbone de 1B, decodificador de 100M
- Small: backbone de 3B, decodificador de 250M
- Medium: backbone de 8B, decodificador de 300M
- Cada modelo foi treinado por 5 epochs com comprimento de sequência de 2048, equivalente a cerca de 2 minutos de áudio
Amostras e sistema de avaliação
- As amostras incluem elementos paralinguísticos, palavras estrangeiras, expressividade contextual, correção de pronúncia e conversas com vários locutores
- O conjunto de avaliação mede quatro aspectos
- Fidelidade ao texto
- Uso de contexto
- Prosódia
- Latência
- As avaliações objetivas incluem WER, um novo teste de pronúncia e similaridade de locutor
- As avaliações subjetivas consistem em testes humanos de Comparative Mean Opinion Score (CMOS) usando o dataset Expresso
- Em benchmarks tradicionais como WER e speaker similarity, os modelos mais recentes, incluindo o CSM, já atingem quase nível humano e estão próximos da saturação
Avaliação de pronúncia e compreensão de contexto
- Um novo benchmark baseado em transcrição de fala foi introduzido para avaliar melhor pronúncia e compreensão de contexto
- A distinção de homógrafos avalia se palavras com a mesma grafia, mas pronúncias diferentes, são pronunciadas corretamente
- Um exemplo é distinguir “lead” como /lɛd/, no sentido do metal, e /liːd/, no sentido de conduzir
- A consistência de continuação de pronúncia avalia se palavras com múltiplas variantes de pronúncia permanecem consistentes em fala multiturno
- Um exemplo é “route”, que pode variar entre /raʊt/ e /ruːt/
- A avaliação de acurácia de homógrafos foi realizada com 200 amostras de voz, incluindo 2 variantes para 5 palavras: lead, bass, tear, wound e row
- A avaliação de consistência de pronúncia foi realizada com 200 amostras de voz contendo 10 palavras, como aunt, data, envelope, mobile, route, vase, either, adult, often e caramel
- A avaliação usa wav2vec2-lv-60-espeak-cv-ft
- Os resultados gerados por Play.ht, Elevenlabs e OpenAI foram produzidos com as configurações padrão e a voz padrão descritas na documentação de cada API
- No geral, o desempenho melhora conforme o modelo cresce, sustentando a hipótese de que scaling ajuda na síntese de voz mais realista
Resultados da avaliação humana
- Para avaliar a naturalidade e a adequação prosódica do CSM-Medium, foram realizados dois estudos CMOS com o dataset Expresso
- Os avaliadores ouviam um par composto por áudio gerado pelo modelo e gravação humana real, e avaliavam a amostra gerada em uma escala de preferência de 7 pontos em relação à referência
- No primeiro estudo, amostras geradas e humanas foram apresentadas sem contexto, e os participantes escolhiam “qual das duas parece mais voz humana”
- No segundo estudo, eram fornecidos junto os 90 segundos anteriores de áudio e contexto textual, e os participantes escolhiam “qual das duas parece a continuação mais apropriada da conversa”
- 80 pessoas participaram mediante pagamento, e cada participante avaliou em média 15 exemplos
- Sem contexto, os avaliadores não mostraram preferência clara entre voz gerada e voz real, sugerindo que a avaliação de naturalidade está saturada
- Quando o contexto é incluído, os avaliadores preferem consistentemente a gravação original, mostrando que ainda existe uma lacuna em relação à prosódia humana na geração de voz conversacional
Plano de abertura e limitações
- A Sesame planeja disponibilizar como open source os componentes centrais da pesquisa, e o modelo será oferecido sob licença Apache 2.0
- Atualizações e contribuições podem ser acompanhadas no repositório GitHub SesameAILabs/csm
- Atualmente, o CSM é treinado principalmente com dados em inglês
- Devido à contaminação de dados, alguma capacidade multilíngue aparece, mas ainda não funciona bem
- Também não aproveita as informações presentes nos pesos de modelos de linguagem pré-treinados
- Nos próximos meses, a empresa planeja ampliar o tamanho do modelo, aumentar a escala do dataset e expandir o suporte para mais de 20 idiomas
- Também pretende explorar formas de aproveitar modelos de linguagem pré-treinados, visando um grande modelo multimodal com conhecimento profundo de voz e texto
- O CSM gera prosódia conversacional de alta qualidade, mas modela apenas o conteúdo textual e vocal da conversa, sem modelar a própria estrutura conversacional
- A conversa humana é um processo complexo que inclui alternância de turnos, pausas e ajuste de velocidade, por isso futuras IAs conversacionais devem se aproximar de modelos fully duplex, que aprendem implicitamente essa dinâmica a partir dos dados
- Modelos fully duplex exigirão mudanças fundamentais em toda a stack, da curadoria de dados até as metodologias de pós-treinamento
Ainda não há comentários.