- A voz humana é o meio mais íntimo para transmitir significados profundos por meio de diversas variações, como tom, altura, ritmo e emoção
- Os assistentes de voz digitais atuais carecem desses elementos emocionais, o que limita a colaboração eficaz com os usuários
- Uma voz sem emoção pode parecer fascinante no início, mas com o tempo pode se tornar decepcionante e cansativa
- O objetivo da Sesame é que os parceiros conversacionais não apenas processem solicitações, mas vão além disso e tenham conversas genuínas que construam confiança e segurança
- Com isso, busca aproveitar ao máximo o potencial da voz e transformá-la na interface definitiva para instrução e compreensão
Elementos principais
- Inteligência emocional: capacidade de ler e responder ao contexto emocional
- Dinâmica da conversa: fluxo conversacional que inclui timing natural, pausas, interrupções e ênfase
- Consciência situacional: capacidade de ajustar tom e estilo de acordo com a situação
- Personalidade consistente: manter uma presença consistente, confiável e apropriada
Ainda não chegamos lá
- Dar presença vocal a um companheiro digital é um desafio difícil, mas seguimos avançando de forma constante em vários aspectos, como personalidade, memória, expressividade e adequação
- A demo abaixo mostra parte do trabalho de geração de voz conversacional otimizado para familiaridade e expressividade
Gerando voz conversacional
- Para criar um companheiro de IA verdadeiramente interativo, é necessário não apenas gerar áudio de alta qualidade, mas também compreender e se adaptar ao contexto em tempo real
- Modelos tradicionais de conversão de texto em fala (TTS) geram voz diretamente a partir do texto, mas não têm a consciência contextual necessária para conversas naturais
- Modelos recentes geram vozes semelhantes às humanas, mas enfrentam o problema de "one-to-many", no qual a mesma frase pode ser expressa de várias maneiras
- Sem contexto adicional (tom, ritmo, histórico da conversa etc.), o modelo não tem informação suficiente para fazer a melhor escolha
- Capturar essas nuances exige raciocínio sobre múltiplos aspectos da linguagem e da prosódia
Modelo de Fala Conversacional (Conversational Speech Model, CSM)
- Para resolver esse problema, foi introduzido o Modelo de Fala Conversacional (CSM), que define a tarefa como um problema de aprendizado multimodal end-to-end com uso de transformadores
- Ele utiliza o histórico da conversa para gerar uma voz mais natural e consistente
- O CSM opera como um modelo de etapa única, melhorando eficiência e expressividade
- Também conta com uma suite de avaliação para medir o progresso em capacidades contextuais, levando em conta que as avaliações públicas comuns já estão saturadas
Contexto
- Uma abordagem para modelar áudio com transformadores é converter formas de onda contínuas em sequências discretas de tokens de áudio usando um tokenizador
- A maioria das abordagens modernas depende de dois tipos de tokens de áudio:
- Tokens semânticos: representação comprimida e invariável ao locutor de características semânticas e fonéticas, que captura os principais traços da fala em troca de sacrificar fidelidade de representação
- Tokens acústicos: codificação de detalhes acústicos refinados que permite reconstrução de áudio em alta fidelidade, gerada com Residual Vector Quantization (RVQ). Ao contrário dos tokens semânticos, preserva características naturais da fala, como a identidade única do locutor e o timbre
Experimentos
- Conjunto de dados: foi usado um conjunto de dados de áudio publicamente disponível com cerca de um milhão de horas, majoritariamente em inglês
- Tamanho dos modelos: foram treinados três tamanhos de modelo, diferenciados pelo backbone e pelo decoder:
- Tiny: backbone de 1 bilhão, decoder de 100 milhões
- Small: backbone de 3 bilhões, decoder de 250 milhões
- Medium: backbone de 8 bilhões, decoder de 300 milhões
- Cada modelo foi treinado por 5 épocas com comprimento de sequência de 2048 (~2 minutos de áudio)
Avaliação
- O desempenho dos modelos foi avaliado em quatro aspectos principais: fidelidade ao texto, uso de contexto, prosódia e latência
- Os benchmarks objetivos incluem taxa de erro de palavras (WER) e novos testes como desambiguação de homófonos
- A avaliação subjetiva depende de estudos humanos com pontuação CMOS (comparative mean opinion score), usando o conjunto de dados Expresso
Limitações e trabalhos futuros
- Atualmente, o CSM foi treinado principalmente com dados em inglês e, embora apresente algumas capacidades multilíngues devido à contaminação do conjunto de dados, seu desempenho ainda não é bom
- Ele não aproveita as informações presentes nos pesos de modelos de linguagem pré-treinados
1 comentários
Comentários do Hacker News
Brendan, da Sesame, diz que o feedback é preciso e reconhece que ainda há muito a melhorar. É inspirador, mas ainda faltam muitas etapas até oferecer uma experiência realmente completa. No momento, isso ainda está no começo do desenvolvimento, mas ele mantém uma visão positiva
Um usuário experimentou a demo, mas decidiu não falar. A experiência pareceu estranha e inquietante, e o entusiasmo artificial foi incômodo
Outro usuário mencionou que a capacidade de resposta e a personalidade deste modelo são surpreendentes. Foi impressionante ele se lembrar de conversas anteriores e cumprimentar a pessoa
Foi levantada a dúvida sobre por que seria necessária uma voz emocional
Um usuário brincou com a IA junto com a filha de 4 anos e ficou preocupado porque a menina criou uma conexão emocional com a IA
Outro usuário achou que a voz soa humana, mas que o ritmo da fala é artificial
Foi mencionado que essa tecnologia é boa demais e pode fascinar as pessoas. Defendeu-se que é necessário um modelo pessoal
Foi mencionado que isso pode ser revolucionário para o aprendizado de inglês
Foi apresentada uma previsão apocalíptica de que a IA poderá fazer ligações com uma voz perfeita e fascinar as pessoas
Um usuário conversou por 13 minutos antes de ocorrer uma falha, mas voltou alguns minutos depois e falou por 30 minutos, sentindo que estava perto do nível de Samantha no filme 'Her'