5 pontos por GN⁺ 2023-09-14 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de difusão latente (Latent Diffusion Model)
    • Um modelo de difusão que opera no espaço de codificação latente de um autoencoder pré-treinado
    • Aumenta significativamente a velocidade de treinamento e inferência dos modelos de difusão
  • Um dos principais problemas ao gerar áudio com modelos de difusão é que eles normalmente são treinados para produzir saídas de tamanho fixo
    • Se treinado com clipes de áudio de 30 segundos, só é possível gerar áudio em unidades de 30 segundos
    • Isso se torna um problema quando se tenta treinar e gerar áudios com durações muito variadas, como na geração de músicas completas
  • Modelos de difusão de áudio tendem a ser treinados cortando ou preenchendo chunks de áudio extraídos aleatoriamente de arquivos longos para ajustá-los ao comprimento de treinamento do modelo de difusão
  • No caso da música, isso faz com que o modelo tenda a gerar trechos aleatórios de canções que começam ou terminam no meio de uma frase musical
  • Stable Audio é um modelo de difusão latente para áudio condicionado não apenas pela duração do arquivo de áudio e pelo tempo de início, mas também por metadados em texto
    • Esse recurso de controle de timing permite gerar áudio com a duração especificada, até o tamanho da janela de treinamento
  • O modelo Stable Audio, usando técnicas modernas de diffusion sampling, consegue gerar 95 segundos de áudio estéreo a 44,1 kHz em menos de 1 segundo em uma GPU NVIDIA A100
  • Desenvolvido pela Harmonai, o laboratório de pesquisa em áudio generativo da Stability AI
  • Baseado no modelo U-Net de 907M (907 milhões) de parâmetros usado no Moûsai
  • O modelo Stable Audio foi treinado com um dataset composto por mais de 800.000 arquivos de áudio, incluindo músicas, efeitos sonoros e stems de instrumentos individuais fornecidos por um grande fornecedor de música chamado AudioSparx
  • Como trabalho futuro, planeja-se melhorar a arquitetura do modelo, o dataset e o procedimento de treinamento para aprimorar a qualidade de saída, a controlabilidade, a velocidade de inferência e a duração da saída
  • A Harmonai planeja lançar modelos open source baseados no Stable Audio e o código de treinamento para treinar modelos de geração de áudio

1 comentários

 
GN⁺ 2023-09-14
Comentários do Hacker News
  • Este artigo discute o 'Stable Audio', uma tecnologia de difusão de áudio latente com condicionamento temporal rápido.
  • Alguns usuários avaliaram a música solo de piano gerada como limpa e interessante, e sugeriram que ela poderia ser facilmente convertida em partitura para um uso mais flexível.
  • Há uma demanda, nas áreas de áudio e visual, para que a IA gere saídas mais estruturadas ou simbólicas, como camadas ou pinceladas em imagens, e faixas de composição em música.
  • Alguns usuários, especialmente os com formação musical, não ficaram impressionados com as peças musicais geradas, avaliando-as como repetitivas e sem imaginação.
  • Essa tecnologia tem potencial para ser usada na geração de música de fundo para jogos ou outras aplicações em que música de alta qualidade não seja prioridade.
  • Um usuário sugeriu que essa tecnologia poderia ser usada pelo Spotify para gerar música adaptada ao gosto pessoal de cada pessoa.
  • Há interesse em saber se o modelo oferece suporte ou "entende" conceitos de áudio espacial, por exemplo, um som de alarme se movendo em círculo.
  • Alguns usuários expressaram a necessidade de uma tecnologia que possa aceitar entradas como melodia, progressão de acordes ou dados de performance, sugerindo potencial para uma nova geração de ferramentas de áudio.
  • Alguns usuários notaram um efeito de "vale da estranheza" nos exemplos de áudio, o que significa que o som parece embaralhado e carece de uma voz musical limpa.
  • Apesar dessas críticas, alguns usuários expressaram agradecimento pela existência desse tipo de tecnologia, contrastando isso com o deboche anterior de empresas como Google e Meta.