17 pontos por xguru 2023-01-10 | 3 comentários | Compartilhar no WhatsApp
  • Modelo de Text-to-Speech baseado em Transformer
  • Com apenas 3 segundos de qualquer voz, é possível sintetizar usando essa mesma voz
  • Muito mais natural e semelhante ao falante do que os TTS Zero-shot mais recentes, além de preservar as emoções do falante e o ambiente acústico
  • O pipeline anterior era phoneme (fonema) → mel-spectrogram → waveform, enquanto o VALL-E usa phoneme → discrete code → waveform
  • Pode ser combinado com várias aplicações de síntese de voz e com modelos de IA como o GPT-3

3 comentários

 
openmind 2023-01-10

Com o avanço do aprendizado de máquina, parece que a barreira de entrada para a tecnologia de TTS também ficou mais baixa. Procurando por repositórios open source, vi que dá até para gravar a própria voz e criar um TTS caseiro usando a minha voz.

 
jjpark78 2023-01-10

Agora, a forma de onda da voz já não pode mais identificar uma pessoa como se fosse uma impressão digital. -_-;

Acho que já ouvi dizer que, em algum lugar, ao fazer escutas, usam amostras de voz de uma pessoa específica em grandes servidores para que o sistema reaja a certas palavras-chave daquela voz...

Se já conseguem sintetizar nesse nível, então esse tipo de sistema agora foi por água abaixo...