1 pontos por GN⁺ 2024-02-14 | 1 comentários | Compartilhar no WhatsApp
  • O demo do Stable Audio mostra, com exemplos de áudio, um único modelo gerando tanto músicas longas quanto efeitos sonoros em estéreo a 44,1 kHz
  • A geração musical foca em criar diferentes gêneros e atmosferas apenas com prompts, como Berlin techno, uplifting acoustic loop, disco, spa lobby meditation e drum solo
  • Os efeitos sonoros incluem door slam, sports car, motorbike, fireworks e cave footsteps, com expressões como "high-quality, stereo" usadas junto nos prompts
  • Os exemplos comparativos são organizados para permitir ouvir lado a lado os resultados de MusicGen-large, MusicGen-stereo, AudioLDM2 e Audiogen-medium com base em prompts do MusicCaps e AudioCaps
  • Os exemplos de reconstrução do autoencoder permitem verificar a fidelidade do áudio comparando a gravação original com o resultado após a passagem pelo modelo

Demo do Stable Audio e exemplos de geração

  • O site do demo pode não funcionar corretamente no Safari; para a melhor experiência, recomenda-se usar o Google Chrome
  • Como materiais relacionados, são oferecidos arXiv, stable-audio-tools e stable-audio-metrics
    • arXiv: artigo do Stable Audio
    • stable-audio-tools: código para reproduzir o Stable Audio
    • stable-audio-metrics: código para avaliação do Stable Audio
  • O modelo consegue gerar música estéreo longa com duração variável em 44,1 kHz
    • Os prompts de exemplo incluem Berlin techno, uplifting acoustic loop, disco, calm meditation music e drum solo
    • Alguns prompts especificam também BPM, instrumentos, clima, estilo regional e até se deve ser loop
  • O mesmo modelo também gera efeitos sonoros em estéreo a 44,1 kHz
    • Os prompts de exemplo incluem door slam, sports car passing by, motorbike passing by, fireworks e reverberant footsteps inside a large rocky cave
    • Nos prompts de efeitos sonoros, foi acrescentado “high-quality, stereo”, com a indicação de que essa abordagem geralmente ajuda

Comparação de modelos e reconstrução com autoencoder

  • A comparação de músicas longas é organizada com base em prompts do MusicCaps
    • Stable Audio: estéreo, 44,1 kHz
    • MusicGen-large: mono, 32 kHz
    • MusicGen-stereo: estéreo, 32 kHz
    • AudioLDM2: mono, 48 kHz
    • Os prompts e áudios usados na comparação foram utilizados no estudo qualitativo reportado no artigo
  • A comparação de efeitos sonoros usa prompts do AudioCaps
    • Stable Audio: estéreo, 44,1 kHz
    • Audiogen-medium: mono, 32 kHz
    • AudioLDM2: mono, 48 kHz
    • Como os prompts do AudioCaps escolhidos aleatoriamente não exigem grande movimentação estéreo, os resultados acabam renderizados de forma relativamente pouco espacial
  • A seção de autoencoder fornece comparações de reconstrução para avaliar a fidelidade do áudio
    • À esquerda fica a gravação ground truth, e à direita o resultado após passar essa gravação ground truth pelo autoencoder
    • O resultado da reconstrução é bastante transparente e muito próximo do ground truth

1 comentários

 
GN⁺ 2024-02-14
Opiniões no Hacker News
  • Curiosamente, Ed Newton-Rex, que havia sido contratado para criar o Stable Audio, saiu da empresa logo após o lançamento por preocupação com direitos autorais e dados de treinamento
    Depois fundou https://www.fairlytrained.org/
    Referência: https://x.com/ednewtonrex

    • Em modelos generativos, se o criador não divulga a arquitetura do modelo e o modelo converte texto para outra mídia, dá para presumir que ele delegou parte do trabalho a um codificador de texto, ou algo com função semelhante, treinado com dados sem licença explícita
      Mesmo para detentores de direitos com bibliotecas de dezenas ou centenas de milhões de itens, como imagens ou trechos de áudio, menos de 1 bilhão de tokens de texto em um grande repositório não bastam para que o codificador de um modelo de geração texto-para-mídia-alvo tenha bom desempenho. O Firefly da Adobe também entra nisso
      Também é um equívoco achar que ter muitos dados semelhantes nessas bibliotecas é especialmente útil. Sem um codificador de texto forte, a maioria dos modelos texto-para-mídia-alvo acaba gerando resultados com aparência ou som bastante medianos
      A forma mais simples de dissipar essa suspeita é divulgar a arquitetura do modelo
      De todo modo, mesmo que tudo isso seja verdade, o próprio motivo de estarmos falando de modelos de difusão e prestando atenção a um trabalho como o Fairly Trained é que alguém treinou com dados sem licença explícita
    • Chamá-lo de “a pessoa contratada para criar o Stable Audio” é um pouco enganoso. Ele ocupava um cargo executivo, VP de produto do grupo de áudio da Stability
      Era uma posição importante, mas “contratado para criar” faz pensar em um desenvolvedor líder ou pesquisador
      Considerando que ele é um fundador com histórico na música, a saída dele também faz mais sentido
    • É uma interpretação interessante, mas também é uma posição bem estranha, já que, quando ele entrou na Stability, o modo de treinamento do Stable Diffusion já era bem conhecido
    • Mesmo que fosse algo que a empresa faria de qualquer jeito, fico pensando se ele não poderia ter considerado isso antes de trabalhar lá
      Ou talvez isso tenha sido uma etapa necessária para o modelo de negócio de certificação dele
    • Precisa haver uma solução para as barreiras de direitos autorais que as empresas encontram ao treinar modelos
      Vejo isso como algo que não é diferente de um artista criar música influenciado pelas músicas que ouviu a vida toda. Fundamentalmente é exatamente a mesma coisa, e música ou arte não podem ser criadas no vácuo
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    Parece que demos uma volta e voltamos à era do Internet Explorer dos anos 90. A diferença, desta vez, é que o navegador dominante é open source, o que ao menos ajuda um pouco
    Seria bom se alguém fizesse um botão GIF animado para Chrome dizendo “Best viewed with Google Chrome”

  • Assim como no Stable Diffusion, neste modelo o prompt de texto provavelmente será uma das formas mais difíceis de controlar para obter uma saída útil
    É fácil imaginar usar MIDI como entrada junto com ControlNet, transformando-o praticamente em um sintetizador neural

    • Concordo. Desde quando eu trabalhava em um projeto de melodias com IA há 2 anos (https://www.melodies.ai/), eu já achava que criar músicas completas de alta qualidade só com texto não seria viável nem desejável por um bom tempo
      Em vez disso, é melhor focar em usar IA para auxiliar o processo do artista em várias etapas da produção musical
    • Em música, pode ser. Mas, para efeitos sonoros, acho que prompts de texto são uma interface de usuário bastante boa
    • Acho que o ideal seria fornecer como entrada uma gravação de áudio de uma melodia cantarolada ou cantada junto com um prompt de texto, e o sistema cuspir uma faixa parecida com isso
    • Funciona bem quando não é preciso muito controle. Por exemplo, um prompt como “solo de free jazz de um saxofonista tenor, sem compasso”
    • Que outras entradas existem no Stable Diffusion além de prompts de texto? Você está falando de coisas como img2img e ControlNet?
  • Comparado aos modelos musicais mais recentes, como MusicGen e MusicLM, isto é incrivelmente bom. Parece também haver uma página de produto, ao estilo Midjourney, que dá para usar por assinatura: https://www.stableaudio.com/
    Infelizmente, não é um modelo com pesos abertos, e também não parece ter API. É um esquema em que você gera áudio pela UI com uma assinatura mensal, não algo que desenvolvedores possam integrar ou encapsular

    • Eu queria criar efeitos sonoros para um jogo em que estou trabalhando, mas, pelo que vi, parece ser necessária uma licença enterprise (https://www.stableaudio.com/pricing)
      Fico curioso por que isso não entra simplesmente na cláusula de “produto comercial com menos de 100 mil usuários ativos mensais” e tem uma cláusula separada
    • Dizem que em breve sairão uma versão com licença CC e uma API
      O ritmo de evolução dos modelos é muito rápido, então parece que será um ano bem grande para a área de música
    • Felizmente, dá para treinar até em casa. A questão maior é os dados
  • Acho que ainda é necessária uma etapa em que a IA primeiro aprenda como soa uma biblioteca de sons de alta qualidade e depois aplique essa capacidade aprendida para acionar os sons dessa biblioteca via MIDI
    Assim, seria possível ter a criatividade da IA musical junto com uma qualidade de áudio perfeita

    • Sempre quis algo assim também em IA de geração de imagens. Em vez de a imagem pronta ser iterada magicamente, acho que seria muito mais legal e interessante ver a IA tentando pintar ou colorir a imagem com pinceladas
      Não sei que dataset ou arquitetura poderia ser aplicado para isso, mas seria realmente interessante
    • Como obter, via MIDI, coisas como uma guitarra tocada de forma áspera ou aquele eco sutil de uma gravação feita no banheiro?
    • Não é isso que a suno.ai faz?
  • Não quero diminuir o avanço aqui; é impressionante
    Como baterista, “solo de bateria” está entre as coisas mais entediantes, e há sons estranhos misturados. No fim, acho que depende do público-alvo
    Para referência, no estado atual os efeitos sonoros também não soam realistas aos meus ouvidos
    Ainda assim, o salto é grande, bom trabalho

    • Como baterista, pensando naquilo acontecendo sobre um compasso 4/4 estável, achei aquele “solo de bateria” surpreendentemente interessante de ouvir
      Por ter uma característica aleatória, mas não totalmente aleatória, ele produz padrões rítmicos bem irregulares. Seria bom conseguir inserir síncopes assim na hora
      Só não peçam para transcrever em partitura
      A consistência do tempo é excelente. Mas os ruídos desnecessários e as reverberações aleatórias dos pratos mostram as limitações do modelo
    • É uma tentativa impressionante, mas ainda está muito longe de gerar música ou sons realmente utilizáveis
      Já existem milhões de faixas de música de biblioteca e efeitos sonoros com qualidade muito melhor. Para competir com isso, seria necessário um investimento enorme em IA generativa, e, diferentemente de texto ou imagem, não parece haver viabilidade econômica
    • Fiquei ainda mais decepcionado porque as amostras musicais não têm transições. A maioria das músicas tem modulação ou viradas de percussão
    • O solo de bateria mostra bem o quanto este modelo não captou o essencial de um solo de bateria. Não sou baterista, mas não é nada agradável de ouvir
      Soa mais ou menos como alguém batendo na bateria de qualquer jeito, tentando acompanhar o tempo
      Por outro lado, ele se sai razoavelmente em coisas tipo música de elevador, o que bate com a expectativa
  • É interessante que eles publiquem o código e orientações amigáveis para treinamento, mas não publiquem o modelo
    É quase como se estivessem implorando para pessoas anônimas conectarem o data loader a uma conta do Apple Music e rodarem à vontade. Claro, ninguém está sugerindo que façam isso

    • Meu palpite é que, nas condições para receber a biblioteca de áudio stock licenciada da AudioSparx para treinamento, talvez houvesse uma cláusula proibindo redistribuir o modelo resultante
  • Fiquei momentaneamente animado com a ideia de geração de efeitos sonoros, mas aqueles “passos” são inacreditavelmente ruins

    • Testei a geração de música no stableaudio.com e, sim, é ruim. Ainda assim, o ritmo de desenvolvimento desses modelos é tão rápido que eu não ficaria surpreso se ficasse incrivelmente bom em 1 ou 2 anos
  • É isso mesmo, não há pesos abertos? É difícil encontrar algo dizendo claramente qual é o caso
    Edit: ah, não sabia que esse comentário seria controverso. Teria sido bom responderem à pergunta antes de dar downvote, mas tudo bem

  • “Costumamos acrescentar ‘high-quality, stereo’ aos prompts de efeitos sonoros, porque geralmente ajuda.”
    É engraçado terem descoberto que a saída melhora quando você simplesmente pede com educação a um LLM para produzir um resultado melhor

    • Às vezes você pode querer o som de uma fita cassete antiga, ou o som de um disco de 78 rpm ainda mais antigo e arranhado
      Como sempre acontece com computadores, eles fazem o que pedimos, não o que pretendíamos