Superando o vale da estranheza da voz conversacional

(sesame.com)

5 pontos por GN⁺ 2025-03-03 | Ainda não há comentários. | Compartilhar no WhatsApp

Para assistentes de voz digitais de uso prolongado, a presença vocal (voice presence), que reflete emoção, ritmo e contexto, é mais importante do que uma voz sintética limpa, e a Sesame propõe o Conversational Speech Model para isso
O CSM é um transformer multimodal end-to-end que processa texto e voz em conjunto, projetado para gerar falas mais naturais e consistentes usando o histórico da conversa
O modelo lida diretamente com tokens RVQ, mas é dividido entre um backbone responsável pelo codebook 0 e um pequeno decodificador de áudio que reconstrói os demais codebooks, buscando equilibrar latência e expressividade
Foram treinados três tamanhos, Tiny, Small e Medium, com cerca de 1 milhão de horas de dados públicos de áudio majoritariamente em inglês, e além de WER e similaridade de locutor, foram adicionadas avaliações de pronúncia de homógrafos e consistência de pronúncia
Sem contexto, não houve uma diferença clara de preferência entre o CSM-Medium e a fala real, mas quando se fornece contexto de conversa, as gravações reais foram preferidas como continuação mais apropriada, mostrando que ainda existe uma lacuna na prosódia conversacional

Presença vocal e objetivo

O objetivo da Sesame é implementar uma presença vocal que faça a fala parecer realmente compreendida e valorizada
Os assistentes de voz digitais atuais muitas vezes permanecem em um tom neutro, o que dificulta seu uso contínuo no dia a dia depois que a novidade inicial passa
Os componentes necessários são resumidos em quatro pontos
- Inteligência emocional: ler e responder ao contexto emocional
- Dinâmica conversacional: lidar com timing natural, pausas, interrupções e ênfase
- Consciência de contexto: ajustar tom e estilo de acordo com a situação
- Personalidade consistente: manter uma presença confiável e apropriada
O companion da demo atual está otimizado para enfatizar proximidade e expressividade, enquanto personalidade, memória, expressividade e adequação ainda estão em aprimoramento

Formulação do problema no Conversational Speech Model

O TTS tradicional gera voz diretamente a partir de texto, mas carece da consciência de contexto necessária para conversas naturais
Mesmo que modelos recentes consigam criar vozes parecidas com as humanas, há várias formas de dizer uma mesma frase, e apenas algumas se encaixam em uma situação específica
Sem contexto adicional como tom, ritmo e histórico da conversa, é difícil para o modelo escolher a forma mais apropriada de enunciar
O CSM aborda esse problema com aprendizado multimodal end-to-end, permitindo que o transformer use o histórico da conversa para gerar voz mais natural e consistente
Há duas características centrais
- Funciona como um modelo de etapa única, aumentando eficiência e expressividade
- Em um cenário em que as avaliações públicas gerais estão saturadas, usa um conjunto separado de avaliações para medir avanços na capacidade de contexto

Tokens de áudio e o design RVQ

Para modelar áudio com transformer, a forma de onda contínua é convertida em uma sequência discreta de tokens de áudio
Abordagens modernas normalmente usam dois tipos de tokens
- Tokens semânticos: comprimem significado e características fonêmicas, sacrificando representação de alta fidelidade
- Tokens acústicos: carregam informações acústicas detalhadas, permitindo reconstrução em alta fidelidade e preservando características como identidade do locutor e timbre
A abordagem comum é modelar primeiro os tokens semânticos e depois gerar o áudio com RVQ ou métodos baseados em difusão
Essa abordagem em duas etapas permite síntese estruturada, mas cria um gargalo em que os tokens semânticos precisam carregar prosódia suficiente
Métodos baseados em RVQ precisam lidar com dependência sequencial entre codebooks dentro de um mesmo frame
- O delay pattern desloca progressivamente os codebooks mais altos para condicioná-los aos codebooks mais baixos do mesmo frame
- Se o tokenizer RVQ tiver N codebooks, são necessários N passos de backbone antes de decodificar o primeiro trecho de áudio, o que piora o time-to-first-audio
- Isso funciona bem para usos offline como audiobooks, mas a latência vira um problema em cenários em tempo real

Estrutura do CSM e método de inferência

O CSM é um modelo multimodal de texto e fala que lida diretamente com tokens RVQ
A estrutura é dividida em dois transformers autorregressivos
- O primeiro backbone multimodal recebe texto e áudio de forma intercalada e modela o codebook 0
- O segundo decodificador de áudio modela os N−1 codebooks restantes e reconstrói a fala usando uma linear head separada para cada codebook
O decodificador é muito menor que o backbone, permitindo geração com baixa latência enquanto mantém o modelo end-to-end
A inferência segue o fluxo abaixo
- Tokens de texto e tokens de áudio são inseridos sequencialmente no backbone
- O backbone prevê o nível do codebook 0
- O decodificador amostra os níveis de 1 até N−1 condicionado ao nível 0
- Os tokens de áudio reconstruídos são reinseridos autorregressivamente no backbone para a próxima etapa
- Quando o símbolo audio EOT aparece, a geração termina, e na próxima solicitação o áudio intermediário, como a fala do usuário, é representado por tokens de áudio e transcrição em texto
Os dois transformers são variantes da arquitetura Llama, e os tokens de texto são gerados com o tokenizer do Llama
O áudio é processado pelo Mimi, um tokenizer split-RVQ que gera 1 codebook semântico e N−1 codebooks acústicos por frame a 12.5Hz
As amostras de treinamento seguem um padrão alternado entre texto e áudio, e a identidade do locutor é codificada diretamente na representação textual

Eficiência de treinamento e dados

Durante o treinamento, o decodificador de áudio processa autorregressivamente o tamanho de batch efetivo B×S e N codebooks, o que cria uma grande carga de memória
Essa carga desacelera o treinamento até em modelos pequenos e dificulta a expansão do modelo e a realização de experimentos rápidos
A Sesame usa compute amortization para reduzir esse gargalo mantendo a fidelidade de todos os codebooks RVQ
- O decodificador de áudio é treinado apenas em um subconjunto aleatório de 1/16 dos frames de áudio
- O codebook 0 é treinado em todos os frames
- Nesse método, não foi observada diferença perceptível na perda do decodificador de áudio durante o treinamento
O dataset é construído a partir de áudio público transcrito, com separação de locutores, segmentação e filtragem
Após a filtragem, os dados somam cerca de 1 milhão de horas e são majoritariamente em inglês
Foram treinados três tamanhos de modelo
- Tiny: backbone de 1B, decodificador de 100M
- Small: backbone de 3B, decodificador de 250M
- Medium: backbone de 8B, decodificador de 300M
Cada modelo foi treinado por 5 epochs com comprimento de sequência de 2048, equivalente a cerca de 2 minutos de áudio

Amostras e sistema de avaliação

As amostras incluem elementos paralinguísticos, palavras estrangeiras, expressividade contextual, correção de pronúncia e conversas com vários locutores
O conjunto de avaliação mede quatro aspectos
- Fidelidade ao texto
- Uso de contexto
- Prosódia
- Latência
As avaliações objetivas incluem WER, um novo teste de pronúncia e similaridade de locutor
As avaliações subjetivas consistem em testes humanos de Comparative Mean Opinion Score (CMOS) usando o dataset Expresso
Em benchmarks tradicionais como WER e speaker similarity, os modelos mais recentes, incluindo o CSM, já atingem quase nível humano e estão próximos da saturação

Avaliação de pronúncia e compreensão de contexto

Um novo benchmark baseado em transcrição de fala foi introduzido para avaliar melhor pronúncia e compreensão de contexto
A distinção de homógrafos avalia se palavras com a mesma grafia, mas pronúncias diferentes, são pronunciadas corretamente
- Um exemplo é distinguir “lead” como /lɛd/, no sentido do metal, e /liːd/, no sentido de conduzir
A consistência de continuação de pronúncia avalia se palavras com múltiplas variantes de pronúncia permanecem consistentes em fala multiturno
- Um exemplo é “route”, que pode variar entre /raʊt/ e /ruːt/
A avaliação de acurácia de homógrafos foi realizada com 200 amostras de voz, incluindo 2 variantes para 5 palavras: lead, bass, tear, wound e row
A avaliação de consistência de pronúncia foi realizada com 200 amostras de voz contendo 10 palavras, como aunt, data, envelope, mobile, route, vase, either, adult, often e caramel
A avaliação usa wav2vec2-lv-60-espeak-cv-ft
Os resultados gerados por Play.ht, Elevenlabs e OpenAI foram produzidos com as configurações padrão e a voz padrão descritas na documentação de cada API
No geral, o desempenho melhora conforme o modelo cresce, sustentando a hipótese de que scaling ajuda na síntese de voz mais realista

Resultados da avaliação humana

Para avaliar a naturalidade e a adequação prosódica do CSM-Medium, foram realizados dois estudos CMOS com o dataset Expresso
Os avaliadores ouviam um par composto por áudio gerado pelo modelo e gravação humana real, e avaliavam a amostra gerada em uma escala de preferência de 7 pontos em relação à referência
No primeiro estudo, amostras geradas e humanas foram apresentadas sem contexto, e os participantes escolhiam “qual das duas parece mais voz humana”
No segundo estudo, eram fornecidos junto os 90 segundos anteriores de áudio e contexto textual, e os participantes escolhiam “qual das duas parece a continuação mais apropriada da conversa”
80 pessoas participaram mediante pagamento, e cada participante avaliou em média 15 exemplos
Sem contexto, os avaliadores não mostraram preferência clara entre voz gerada e voz real, sugerindo que a avaliação de naturalidade está saturada
Quando o contexto é incluído, os avaliadores preferem consistentemente a gravação original, mostrando que ainda existe uma lacuna em relação à prosódia humana na geração de voz conversacional

Plano de abertura e limitações

A Sesame planeja disponibilizar como open source os componentes centrais da pesquisa, e o modelo será oferecido sob licença Apache 2.0
Atualizações e contribuições podem ser acompanhadas no repositório GitHub SesameAILabs/csm
Atualmente, o CSM é treinado principalmente com dados em inglês
- Devido à contaminação de dados, alguma capacidade multilíngue aparece, mas ainda não funciona bem
- Também não aproveita as informações presentes nos pesos de modelos de linguagem pré-treinados
Nos próximos meses, a empresa planeja ampliar o tamanho do modelo, aumentar a escala do dataset e expandir o suporte para mais de 20 idiomas
Também pretende explorar formas de aproveitar modelos de linguagem pré-treinados, visando um grande modelo multimodal com conhecimento profundo de voz e texto
O CSM gera prosódia conversacional de alta qualidade, mas modela apenas o conteúdo textual e vocal da conversa, sem modelar a própria estrutura conversacional
A conversa humana é um processo complexo que inclui alternância de turnos, pausas e ajuste de velocidade, por isso futuras IAs conversacionais devem se aproximar de modelos fully duplex, que aprendem implicitamente essa dinâmica a partir dos dados
Modelos fully duplex exigirão mudanças fundamentais em toda a stack, da curadoria de dados até as metodologias de pós-treinamento

Superando o vale da estranheza da voz conversacional

Presença vocal e objetivo

Formulação do problema no Conversational Speech Model

Tokens de áudio e o design RVQ

Estrutura do CSM e método de inferência

Eficiência de treinamento e dados

Amostras e sistema de avaliação

Avaliação de pronúncia e compreensão de contexto

Resultados da avaliação humana

Plano de abertura e limitações

Leituras relacionadas

Ainda não há comentários.