VALL-E - modelo de linguagem para síntese de voz criado pela Microsoft
(valle-demo.github.io)- Modelo de Text-to-Speech baseado em Transformer
- Com apenas 3 segundos de qualquer voz, é possível sintetizar usando essa mesma voz
- Muito mais natural e semelhante ao falante do que os TTS Zero-shot mais recentes, além de preservar as emoções do falante e o ambiente acústico
- O pipeline anterior era phoneme (fonema) → mel-spectrogram → waveform, enquanto o VALL-E usa phoneme → discrete code → waveform
- Pode ser combinado com várias aplicações de síntese de voz e com modelos de IA como o GPT-3
3 comentários
Com o avanço do aprendizado de máquina, parece que a barreira de entrada para a tecnologia de TTS também ficou mais baixa. Procurando por repositórios open source, vi que dá até para gravar a própria voz e criar um TTS caseiro usando a minha voz.
Agora, a forma de onda da voz já não pode mais identificar uma pessoa como se fosse uma impressão digital. -_-;
Acho que já ouvi dizer que, em algum lugar, ao fazer escutas, usam amostras de voz de uma pessoa específica em grandes servidores para que o sistema reaja a certas palavras-chave daquela voz...
Se já conseguem sintetizar nesse nível, então esse tipo de sistema agora foi por água abaixo...