Stable Audio - difusão de áudio latente com controle rápido de timing

Modelo de difusão latente (Latent Diffusion Model)
- Um modelo de difusão que opera no espaço de codificação latente de um autoencoder pré-treinado
- Aumenta significativamente a velocidade de treinamento e inferência dos modelos de difusão
Um dos principais problemas ao gerar áudio com modelos de difusão é que eles normalmente são treinados para produzir saídas de tamanho fixo
- Se treinado com clipes de áudio de 30 segundos, só é possível gerar áudio em unidades de 30 segundos
- Isso se torna um problema quando se tenta treinar e gerar áudios com durações muito variadas, como na geração de músicas completas
Modelos de difusão de áudio tendem a ser treinados cortando ou preenchendo chunks de áudio extraídos aleatoriamente de arquivos longos para ajustá-los ao comprimento de treinamento do modelo de difusão
No caso da música, isso faz com que o modelo tenda a gerar trechos aleatórios de canções que começam ou terminam no meio de uma frase musical
Stable Audio é um modelo de difusão latente para áudio condicionado não apenas pela duração do arquivo de áudio e pelo tempo de início, mas também por metadados em texto
- Esse recurso de controle de timing permite gerar áudio com a duração especificada, até o tamanho da janela de treinamento
O modelo Stable Audio, usando técnicas modernas de diffusion sampling, consegue gerar 95 segundos de áudio estéreo a 44,1 kHz em menos de 1 segundo em uma GPU NVIDIA A100
Desenvolvido pela Harmonai, o laboratório de pesquisa em áudio generativo da Stability AI
Baseado no modelo U-Net de 907M (907 milhões) de parâmetros usado no Moûsai
O modelo Stable Audio foi treinado com um dataset composto por mais de 800.000 arquivos de áudio, incluindo músicas, efeitos sonoros e stems de instrumentos individuais fornecidos por um grande fornecedor de música chamado AudioSparx
Como trabalho futuro, planeja-se melhorar a arquitetura do modelo, o dataset e o procedimento de treinamento para aprimorar a qualidade de saída, a controlabilidade, a velocidade de inferência e a duração da saída
A Harmonai planeja lançar modelos open source baseados no Stable Audio e o código de treinamento para treinar modelos de geração de áudio

1 comentários

GN⁺ 2023-09-14

Comentários do Hacker News

Este artigo discute o 'Stable Audio', uma tecnologia de difusão de áudio latente com condicionamento temporal rápido.
Alguns usuários avaliaram a música solo de piano gerada como limpa e interessante, e sugeriram que ela poderia ser facilmente convertida em partitura para um uso mais flexível.
Há uma demanda, nas áreas de áudio e visual, para que a IA gere saídas mais estruturadas ou simbólicas, como camadas ou pinceladas em imagens, e faixas de composição em música.
Alguns usuários, especialmente os com formação musical, não ficaram impressionados com as peças musicais geradas, avaliando-as como repetitivas e sem imaginação.
Essa tecnologia tem potencial para ser usada na geração de música de fundo para jogos ou outras aplicações em que música de alta qualidade não seja prioridade.
Um usuário sugeriu que essa tecnologia poderia ser usada pelo Spotify para gerar música adaptada ao gosto pessoal de cada pessoa.
Há interesse em saber se o modelo oferece suporte ou "entende" conceitos de áudio espacial, por exemplo, um som de alarme se movendo em círculo.
Alguns usuários expressaram a necessidade de uma tecnologia que possa aceitar entradas como melodia, progressão de acordes ou dados de performance, sugerindo potencial para uma nova geração de ferramentas de áudio.
Alguns usuários notaram um efeito de "vale da estranheza" nos exemplos de áudio, o que significa que o som parece embaralhado e carece de uma voz musical limpa.
Apesar dessas críticas, alguns usuários expressaram agradecimento pela existência desse tipo de tecnologia, contrastando isso com o deboche anterior de empresas como Google e Meta.

Stable Audio - difusão de áudio latente com controle rápido de timing

Leituras relacionadas

1 comentários

Comentários do Hacker News