VALL-E - modelo de linguagem para síntese de voz criado pela Microsoft

xguru · 2023-01-10T10:24:40+09:00

Modelo de Text-to-Speech baseado em Transformer Com apenas 3 segundos de qualquer voz, é possível sintetizar usando essa mesma voz Muito mais natural e semelhante ao falante do que os TTS Zero-shot mais recentes, além de preservar as emoções do falante e o ambiente acústico O pipeline anterior era phoneme (fonema) → mel-spectrogram → waveform, enquanto o VALL-E usa phoneme → discrete code → waveform Pode ser combinado com várias aplicações de síntese de voz e com modelos de IA como o GPT-3

(valle-demo.github.io)

17 pontos por xguru 2023-01-10 | 3 comentários | Compartilhar no WhatsApp

Modelo de Text-to-Speech baseado em Transformer
Com apenas 3 segundos de qualquer voz, é possível sintetizar usando essa mesma voz
Muito mais natural e semelhante ao falante do que os TTS Zero-shot mais recentes, além de preservar as emoções do falante e o ambiente acústico
O pipeline anterior era phoneme (fonema) → mel-spectrogram → waveform, enquanto o VALL-E usa phoneme → discrete code → waveform
Pode ser combinado com várias aplicações de síntese de voz e com modelos de IA como o GPT-3

3 comentários

openmind 2023-01-10

Com o avanço do aprendizado de máquina, parece que a barreira de entrada para a tecnologia de TTS também ficou mais baixa. Procurando por repositórios open source, vi que dá até para gravar a própria voz e criar um TTS caseiro usando a minha voz.

jjpark78 2023-01-10

Agora, a forma de onda da voz já não pode mais identificar uma pessoa como se fosse uma impressão digital. -_-;

Acho que já ouvi dizer que, em algum lugar, ao fazer escutas, usam amostras de voz de uma pessoa específica em grandes servidores para que o sistema reaja a certas palavras-chave daquela voz...

Se já conseguem sintetizar nesse nível, então esse tipo de sistema agora foi por água abaixo...

xguru 2023-01-10

VALL-E - modelo de linguagem para síntese de voz criado pela Microsoft

Leituras relacionadas

3 comentários