5 pontos por GN⁺ 2025-03-03 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Para assistentes de voz digitais de uso prolongado, a presença vocal (voice presence), que reflete emoção, ritmo e contexto, é mais importante do que uma voz sintética limpa, e a Sesame propõe o Conversational Speech Model para isso
  • O CSM é um transformer multimodal end-to-end que processa texto e voz em conjunto, projetado para gerar falas mais naturais e consistentes usando o histórico da conversa
  • O modelo lida diretamente com tokens RVQ, mas é dividido entre um backbone responsável pelo codebook 0 e um pequeno decodificador de áudio que reconstrói os demais codebooks, buscando equilibrar latência e expressividade
  • Foram treinados três tamanhos, Tiny, Small e Medium, com cerca de 1 milhão de horas de dados públicos de áudio majoritariamente em inglês, e além de WER e similaridade de locutor, foram adicionadas avaliações de pronúncia de homógrafos e consistência de pronúncia
  • Sem contexto, não houve uma diferença clara de preferência entre o CSM-Medium e a fala real, mas quando se fornece contexto de conversa, as gravações reais foram preferidas como continuação mais apropriada, mostrando que ainda existe uma lacuna na prosódia conversacional

Presença vocal e objetivo

  • O objetivo da Sesame é implementar uma presença vocal que faça a fala parecer realmente compreendida e valorizada
  • Os assistentes de voz digitais atuais muitas vezes permanecem em um tom neutro, o que dificulta seu uso contínuo no dia a dia depois que a novidade inicial passa
  • Os componentes necessários são resumidos em quatro pontos
    • Inteligência emocional: ler e responder ao contexto emocional
    • Dinâmica conversacional: lidar com timing natural, pausas, interrupções e ênfase
    • Consciência de contexto: ajustar tom e estilo de acordo com a situação
    • Personalidade consistente: manter uma presença confiável e apropriada
  • O companion da demo atual está otimizado para enfatizar proximidade e expressividade, enquanto personalidade, memória, expressividade e adequação ainda estão em aprimoramento

Formulação do problema no Conversational Speech Model

  • O TTS tradicional gera voz diretamente a partir de texto, mas carece da consciência de contexto necessária para conversas naturais
  • Mesmo que modelos recentes consigam criar vozes parecidas com as humanas, há várias formas de dizer uma mesma frase, e apenas algumas se encaixam em uma situação específica
  • Sem contexto adicional como tom, ritmo e histórico da conversa, é difícil para o modelo escolher a forma mais apropriada de enunciar
  • O CSM aborda esse problema com aprendizado multimodal end-to-end, permitindo que o transformer use o histórico da conversa para gerar voz mais natural e consistente
  • Há duas características centrais
    • Funciona como um modelo de etapa única, aumentando eficiência e expressividade
    • Em um cenário em que as avaliações públicas gerais estão saturadas, usa um conjunto separado de avaliações para medir avanços na capacidade de contexto

Tokens de áudio e o design RVQ

  • Para modelar áudio com transformer, a forma de onda contínua é convertida em uma sequência discreta de tokens de áudio
  • Abordagens modernas normalmente usam dois tipos de tokens
    • Tokens semânticos: comprimem significado e características fonêmicas, sacrificando representação de alta fidelidade
    • Tokens acústicos: carregam informações acústicas detalhadas, permitindo reconstrução em alta fidelidade e preservando características como identidade do locutor e timbre
  • A abordagem comum é modelar primeiro os tokens semânticos e depois gerar o áudio com RVQ ou métodos baseados em difusão
  • Essa abordagem em duas etapas permite síntese estruturada, mas cria um gargalo em que os tokens semânticos precisam carregar prosódia suficiente
  • Métodos baseados em RVQ precisam lidar com dependência sequencial entre codebooks dentro de um mesmo frame
    • O delay pattern desloca progressivamente os codebooks mais altos para condicioná-los aos codebooks mais baixos do mesmo frame
    • Se o tokenizer RVQ tiver N codebooks, são necessários N passos de backbone antes de decodificar o primeiro trecho de áudio, o que piora o time-to-first-audio
    • Isso funciona bem para usos offline como audiobooks, mas a latência vira um problema em cenários em tempo real

Estrutura do CSM e método de inferência

  • O CSM é um modelo multimodal de texto e fala que lida diretamente com tokens RVQ
  • A estrutura é dividida em dois transformers autorregressivos
    • O primeiro backbone multimodal recebe texto e áudio de forma intercalada e modela o codebook 0
    • O segundo decodificador de áudio modela os N−1 codebooks restantes e reconstrói a fala usando uma linear head separada para cada codebook
  • O decodificador é muito menor que o backbone, permitindo geração com baixa latência enquanto mantém o modelo end-to-end
  • A inferência segue o fluxo abaixo
    • Tokens de texto e tokens de áudio são inseridos sequencialmente no backbone
    • O backbone prevê o nível do codebook 0
    • O decodificador amostra os níveis de 1 até N−1 condicionado ao nível 0
    • Os tokens de áudio reconstruídos são reinseridos autorregressivamente no backbone para a próxima etapa
    • Quando o símbolo audio EOT aparece, a geração termina, e na próxima solicitação o áudio intermediário, como a fala do usuário, é representado por tokens de áudio e transcrição em texto
  • Os dois transformers são variantes da arquitetura Llama, e os tokens de texto são gerados com o tokenizer do Llama
  • O áudio é processado pelo Mimi, um tokenizer split-RVQ que gera 1 codebook semântico e N−1 codebooks acústicos por frame a 12.5Hz
  • As amostras de treinamento seguem um padrão alternado entre texto e áudio, e a identidade do locutor é codificada diretamente na representação textual

Eficiência de treinamento e dados

  • Durante o treinamento, o decodificador de áudio processa autorregressivamente o tamanho de batch efetivo B×S e N codebooks, o que cria uma grande carga de memória
  • Essa carga desacelera o treinamento até em modelos pequenos e dificulta a expansão do modelo e a realização de experimentos rápidos
  • A Sesame usa compute amortization para reduzir esse gargalo mantendo a fidelidade de todos os codebooks RVQ
    • O decodificador de áudio é treinado apenas em um subconjunto aleatório de 1/16 dos frames de áudio
    • O codebook 0 é treinado em todos os frames
    • Nesse método, não foi observada diferença perceptível na perda do decodificador de áudio durante o treinamento
  • O dataset é construído a partir de áudio público transcrito, com separação de locutores, segmentação e filtragem
  • Após a filtragem, os dados somam cerca de 1 milhão de horas e são majoritariamente em inglês
  • Foram treinados três tamanhos de modelo
    • Tiny: backbone de 1B, decodificador de 100M
    • Small: backbone de 3B, decodificador de 250M
    • Medium: backbone de 8B, decodificador de 300M
  • Cada modelo foi treinado por 5 epochs com comprimento de sequência de 2048, equivalente a cerca de 2 minutos de áudio

Amostras e sistema de avaliação

  • As amostras incluem elementos paralinguísticos, palavras estrangeiras, expressividade contextual, correção de pronúncia e conversas com vários locutores
  • O conjunto de avaliação mede quatro aspectos
    • Fidelidade ao texto
    • Uso de contexto
    • Prosódia
    • Latência
  • As avaliações objetivas incluem WER, um novo teste de pronúncia e similaridade de locutor
  • As avaliações subjetivas consistem em testes humanos de Comparative Mean Opinion Score (CMOS) usando o dataset Expresso
  • Em benchmarks tradicionais como WER e speaker similarity, os modelos mais recentes, incluindo o CSM, já atingem quase nível humano e estão próximos da saturação

Avaliação de pronúncia e compreensão de contexto

  • Um novo benchmark baseado em transcrição de fala foi introduzido para avaliar melhor pronúncia e compreensão de contexto
  • A distinção de homógrafos avalia se palavras com a mesma grafia, mas pronúncias diferentes, são pronunciadas corretamente
    • Um exemplo é distinguir “lead” como /lɛd/, no sentido do metal, e /liːd/, no sentido de conduzir
  • A consistência de continuação de pronúncia avalia se palavras com múltiplas variantes de pronúncia permanecem consistentes em fala multiturno
    • Um exemplo é “route”, que pode variar entre /raʊt/ e /ruːt/
  • A avaliação de acurácia de homógrafos foi realizada com 200 amostras de voz, incluindo 2 variantes para 5 palavras: lead, bass, tear, wound e row
  • A avaliação de consistência de pronúncia foi realizada com 200 amostras de voz contendo 10 palavras, como aunt, data, envelope, mobile, route, vase, either, adult, often e caramel
  • A avaliação usa wav2vec2-lv-60-espeak-cv-ft
  • Os resultados gerados por Play.ht, Elevenlabs e OpenAI foram produzidos com as configurações padrão e a voz padrão descritas na documentação de cada API
  • No geral, o desempenho melhora conforme o modelo cresce, sustentando a hipótese de que scaling ajuda na síntese de voz mais realista

Resultados da avaliação humana

  • Para avaliar a naturalidade e a adequação prosódica do CSM-Medium, foram realizados dois estudos CMOS com o dataset Expresso
  • Os avaliadores ouviam um par composto por áudio gerado pelo modelo e gravação humana real, e avaliavam a amostra gerada em uma escala de preferência de 7 pontos em relação à referência
  • No primeiro estudo, amostras geradas e humanas foram apresentadas sem contexto, e os participantes escolhiam “qual das duas parece mais voz humana”
  • No segundo estudo, eram fornecidos junto os 90 segundos anteriores de áudio e contexto textual, e os participantes escolhiam “qual das duas parece a continuação mais apropriada da conversa”
  • 80 pessoas participaram mediante pagamento, e cada participante avaliou em média 15 exemplos
  • Sem contexto, os avaliadores não mostraram preferência clara entre voz gerada e voz real, sugerindo que a avaliação de naturalidade está saturada
  • Quando o contexto é incluído, os avaliadores preferem consistentemente a gravação original, mostrando que ainda existe uma lacuna em relação à prosódia humana na geração de voz conversacional

Plano de abertura e limitações

  • A Sesame planeja disponibilizar como open source os componentes centrais da pesquisa, e o modelo será oferecido sob licença Apache 2.0
  • Atualizações e contribuições podem ser acompanhadas no repositório GitHub SesameAILabs/csm
  • Atualmente, o CSM é treinado principalmente com dados em inglês
    • Devido à contaminação de dados, alguma capacidade multilíngue aparece, mas ainda não funciona bem
    • Também não aproveita as informações presentes nos pesos de modelos de linguagem pré-treinados
  • Nos próximos meses, a empresa planeja ampliar o tamanho do modelo, aumentar a escala do dataset e expandir o suporte para mais de 20 idiomas
  • Também pretende explorar formas de aproveitar modelos de linguagem pré-treinados, visando um grande modelo multimodal com conhecimento profundo de voz e texto
  • O CSM gera prosódia conversacional de alta qualidade, mas modela apenas o conteúdo textual e vocal da conversa, sem modelar a própria estrutura conversacional
  • A conversa humana é um processo complexo que inclui alternância de turnos, pausas e ajuste de velocidade, por isso futuras IAs conversacionais devem se aproximar de modelos fully duplex, que aprendem implicitamente essa dinâmica a partir dos dados
  • Modelos fully duplex exigirão mudanças fundamentais em toda a stack, da curadoria de dados até as metodologias de pós-treinamento

Ainda não há comentários.

Ainda não há comentários.