5 pontos por GN⁺ 2025-03-03 | 1 comentários | Compartilhar no WhatsApp
  • A voz humana é o meio mais íntimo para transmitir significados profundos por meio de diversas variações, como tom, altura, ritmo e emoção
  • Os assistentes de voz digitais atuais carecem desses elementos emocionais, o que limita a colaboração eficaz com os usuários
  • Uma voz sem emoção pode parecer fascinante no início, mas com o tempo pode se tornar decepcionante e cansativa
  • O objetivo da Sesame é que os parceiros conversacionais não apenas processem solicitações, mas vão além disso e tenham conversas genuínas que construam confiança e segurança
  • Com isso, busca aproveitar ao máximo o potencial da voz e transformá-la na interface definitiva para instrução e compreensão

Elementos principais

  • Inteligência emocional: capacidade de ler e responder ao contexto emocional
  • Dinâmica da conversa: fluxo conversacional que inclui timing natural, pausas, interrupções e ênfase
  • Consciência situacional: capacidade de ajustar tom e estilo de acordo com a situação
  • Personalidade consistente: manter uma presença consistente, confiável e apropriada

Ainda não chegamos lá

  • Dar presença vocal a um companheiro digital é um desafio difícil, mas seguimos avançando de forma constante em vários aspectos, como personalidade, memória, expressividade e adequação
  • A demo abaixo mostra parte do trabalho de geração de voz conversacional otimizado para familiaridade e expressividade

Gerando voz conversacional

  • Para criar um companheiro de IA verdadeiramente interativo, é necessário não apenas gerar áudio de alta qualidade, mas também compreender e se adaptar ao contexto em tempo real​
  • Modelos tradicionais de conversão de texto em fala (TTS) geram voz diretamente a partir do texto, mas não têm a consciência contextual necessária para conversas naturais​
  • Modelos recentes geram vozes semelhantes às humanas, mas enfrentam o problema de "one-to-many", no qual a mesma frase pode ser expressa de várias maneiras​
  • Sem contexto adicional (tom, ritmo, histórico da conversa etc.), o modelo não tem informação suficiente para fazer a melhor escolha​
  • Capturar essas nuances exige raciocínio sobre múltiplos aspectos da linguagem e da prosódia

Modelo de Fala Conversacional (Conversational Speech Model, CSM)

  • Para resolver esse problema, foi introduzido o Modelo de Fala Conversacional (CSM), que define a tarefa como um problema de aprendizado multimodal end-to-end com uso de transformadores​
  • Ele utiliza o histórico da conversa para gerar uma voz mais natural e consistente​
  • O CSM opera como um modelo de etapa única, melhorando eficiência e expressividade​
  • Também conta com uma suite de avaliação para medir o progresso em capacidades contextuais, levando em conta que as avaliações públicas comuns já estão saturadas

Contexto

  • Uma abordagem para modelar áudio com transformadores é converter formas de onda contínuas em sequências discretas de tokens de áudio usando um tokenizador
  • A maioria das abordagens modernas depende de dois tipos de tokens de áudio:
    • Tokens semânticos: representação comprimida e invariável ao locutor de características semânticas e fonéticas, que captura os principais traços da fala em troca de sacrificar fidelidade de representação
    • Tokens acústicos: codificação de detalhes acústicos refinados que permite reconstrução de áudio em alta fidelidade, gerada com Residual Vector Quantization (RVQ). Ao contrário dos tokens semânticos, preserva características naturais da fala, como a identidade única do locutor e o timbre

Experimentos

  • Conjunto de dados: foi usado um conjunto de dados de áudio publicamente disponível com cerca de um milhão de horas, majoritariamente em inglês
  • Tamanho dos modelos: foram treinados três tamanhos de modelo, diferenciados pelo backbone e pelo decoder:
    • Tiny: backbone de 1 bilhão, decoder de 100 milhões
    • Small: backbone de 3 bilhões, decoder de 250 milhões
    • Medium: backbone de 8 bilhões, decoder de 300 milhões
  • Cada modelo foi treinado por 5 épocas com comprimento de sequência de 2048 (~2 minutos de áudio)

Avaliação

  • O desempenho dos modelos foi avaliado em quatro aspectos principais: fidelidade ao texto, uso de contexto, prosódia e latência
  • Os benchmarks objetivos incluem taxa de erro de palavras (WER) e novos testes como desambiguação de homófonos
  • A avaliação subjetiva depende de estudos humanos com pontuação CMOS (comparative mean opinion score), usando o conjunto de dados Expresso

Limitações e trabalhos futuros

  • Atualmente, o CSM foi treinado principalmente com dados em inglês e, embora apresente algumas capacidades multilíngues devido à contaminação do conjunto de dados, seu desempenho ainda não é bom
  • Ele não aproveita as informações presentes nos pesos de modelos de linguagem pré-treinados

1 comentários

 
GN⁺ 2025-03-03
Comentários do Hacker News
  • Brendan, da Sesame, diz que o feedback é preciso e reconhece que ainda há muito a melhorar. É inspirador, mas ainda faltam muitas etapas até oferecer uma experiência realmente completa. No momento, isso ainda está no começo do desenvolvimento, mas ele mantém uma visão positiva

    • A comunicação linguística é complexa e há muitos desafios interessantes a resolver
    • O timing das respostas muitas vezes é inadequado e não se integra naturalmente à conversa
    • Não lida bem com interrupções na conversa e não consegue manter uma personalidade consistente
    • Também há problemas como alucinações, falta de memória e falta de noção de tempo
    • Ele acredita que a comunidade poderá resolver esses problemas
    • O objetivo é criar uma interface com a qual seja possível colaborar de forma natural, e não uma amizade emocional
    • Quando os aplicativos conseguirem conversar como especialistas, serão mais intuitivos e eficientes
  • Um usuário experimentou a demo, mas decidiu não falar. A experiência pareceu estranha e inquietante, e o entusiasmo artificial foi incômodo

    • Produtos de IA devem apresentar um objetivo claro ao usuário
    • Uma IA feita apenas para conversar pode ter um impacto negativo na sociedade
  • Outro usuário mencionou que a capacidade de resposta e a personalidade deste modelo são surpreendentes. Foi impressionante ele se lembrar de conversas anteriores e cumprimentar a pessoa

    • As interações da demo são registradas e conversas passadas são incluídas no contexto do modelo
    • É necessário dar permissão ao microfone, e as chamadas são gravadas para revisão de qualidade, mas são apagadas em até 30 dias
  • Foi levantada a dúvida sobre por que seria necessária uma voz emocional

    • Uma voz emocional apenas cria a ilusão de amizade, sem realmente ajudar
    • Um assistente de voz neutro e inteligente pode ser mais útil
  • Um usuário brincou com a IA junto com a filha de 4 anos e ficou preocupado porque a menina criou uma conexão emocional com a IA

  • Outro usuário achou que a voz soa humana, mas que o ritmo da fala é artificial

  • Foi mencionado que essa tecnologia é boa demais e pode fascinar as pessoas. Defendeu-se que é necessário um modelo pessoal

  • Foi mencionado que isso pode ser revolucionário para o aprendizado de inglês

    • Em países em desenvolvimento, há escassez de professores de inglês, e bons professores são caros e difíceis de acessar
    • Este modelo oferece desempenho semelhante ou melhor que os modelos da OpenAI, com custo mais baixo
  • Foi apresentada uma previsão apocalíptica de que a IA poderá fazer ligações com uma voz perfeita e fascinar as pessoas

  • Um usuário conversou por 13 minutos antes de ocorrer uma falha, mas voltou alguns minutos depois e falou por 30 minutos, sentindo que estava perto do nível de Samantha no filme 'Her'

    • Durante a conversa, aprendeu a palavra 'PROSODY', e a IA explicou que ouve o tom e o conteúdo e ajusta automaticamente sua resposta
    • Comentou que parecia que o futuro já chegou, mas não está distribuído de forma uniforme