- Modelo de difusão latente (Latent Diffusion Model)
- Um modelo de difusão que opera no espaço de codificação latente de um autoencoder pré-treinado
- Aumenta significativamente a velocidade de treinamento e inferência dos modelos de difusão
- Um dos principais problemas ao gerar áudio com modelos de difusão é que eles normalmente são treinados para produzir saídas de tamanho fixo
- Se treinado com clipes de áudio de 30 segundos, só é possível gerar áudio em unidades de 30 segundos
- Isso se torna um problema quando se tenta treinar e gerar áudios com durações muito variadas, como na geração de músicas completas
- Modelos de difusão de áudio tendem a ser treinados cortando ou preenchendo chunks de áudio extraídos aleatoriamente de arquivos longos para ajustá-los ao comprimento de treinamento do modelo de difusão
- No caso da música, isso faz com que o modelo tenda a gerar trechos aleatórios de canções que começam ou terminam no meio de uma frase musical
- Stable Audio é um modelo de difusão latente para áudio condicionado não apenas pela duração do arquivo de áudio e pelo tempo de início, mas também por metadados em texto
- Esse recurso de controle de timing permite gerar áudio com a duração especificada, até o tamanho da janela de treinamento
- O modelo Stable Audio, usando técnicas modernas de diffusion sampling, consegue gerar 95 segundos de áudio estéreo a 44,1 kHz em menos de 1 segundo em uma GPU NVIDIA A100
- Desenvolvido pela Harmonai, o laboratório de pesquisa em áudio generativo da Stability AI
- Baseado no modelo U-Net de 907M (907 milhões) de parâmetros usado no Moûsai
- O modelo Stable Audio foi treinado com um dataset composto por mais de 800.000 arquivos de áudio, incluindo músicas, efeitos sonoros e stems de instrumentos individuais fornecidos por um grande fornecedor de música chamado AudioSparx
- Como trabalho futuro, planeja-se melhorar a arquitetura do modelo, o dataset e o procedimento de treinamento para aprimorar a qualidade de saída, a controlabilidade, a velocidade de inferência e a duração da saída
- A Harmonai planeja lançar modelos open source baseados no Stable Audio e o código de treinamento para treinar modelos de geração de áudio
1 comentários
Comentários do Hacker News