AudioGen: geração de áudio usando texto descritivo de contexto

xguru · 2022-10-04T10:28:48+09:00

É possível gerar sons como "um cachorro latindo no parque", "som de assobio com vento soprando" e "um homem discursando diante de muitas pessoas aplaudindo" A geração de áudio envolve vários desafios É difícil separar os objetos que produzem som, isso fica ainda mais complexo devido às diversas condições de gravação do ambiente real, e a falta de anotações sobre essas situações dificulta o treinamento do modelo Para amenizar esses problemas, é proposta uma técnica de aumento de dados (augmentation technique) que mistura diversas amostras de áudio e faz o modelo aprender internamente técnicas para separar várias fontes

(felixkreuk.github.io)

12 pontos por xguru 2022-10-04 | Ainda não há comentários. | Compartilhar no WhatsApp

É possível gerar sons como "um cachorro latindo no parque", "som de assobio com vento soprando" e "um homem discursando diante de muitas pessoas aplaudindo"
A geração de áudio envolve vários desafios
- É difícil separar os objetos que produzem som, isso fica ainda mais complexo devido às diversas condições de gravação do ambiente real, e a falta de anotações sobre essas situações dificulta o treinamento do modelo
Para amenizar esses problemas, é proposta uma técnica de aumento de dados (augmentation technique) que mistura diversas amostras de áudio e faz o modelo aprender internamente técnicas para separar várias fontes

AudioGen: geração de áudio usando texto descritivo de contexto

Leituras relacionadas

Ainda não há comentários.