Demo do Stable Audio
(stability-ai.github.io)- O demo do Stable Audio mostra, com exemplos de áudio, um único modelo gerando tanto músicas longas quanto efeitos sonoros em estéreo a 44,1 kHz
- A geração musical foca em criar diferentes gêneros e atmosferas apenas com prompts, como Berlin techno, uplifting acoustic loop, disco, spa lobby meditation e drum solo
- Os efeitos sonoros incluem door slam, sports car, motorbike, fireworks e cave footsteps, com expressões como "high-quality, stereo" usadas junto nos prompts
- Os exemplos comparativos são organizados para permitir ouvir lado a lado os resultados de MusicGen-large, MusicGen-stereo, AudioLDM2 e Audiogen-medium com base em prompts do MusicCaps e AudioCaps
- Os exemplos de reconstrução do autoencoder permitem verificar a fidelidade do áudio comparando a gravação original com o resultado após a passagem pelo modelo
Demo do Stable Audio e exemplos de geração
- O site do demo pode não funcionar corretamente no Safari; para a melhor experiência, recomenda-se usar o Google Chrome
- Como materiais relacionados, são oferecidos
arXiv,stable-audio-toolsestable-audio-metricsarXiv: artigo do Stable Audiostable-audio-tools: código para reproduzir o Stable Audiostable-audio-metrics: código para avaliação do Stable Audio
- O modelo consegue gerar música estéreo longa com duração variável em 44,1 kHz
- Os prompts de exemplo incluem Berlin techno, uplifting acoustic loop, disco, calm meditation music e drum solo
- Alguns prompts especificam também BPM, instrumentos, clima, estilo regional e até se deve ser loop
- O mesmo modelo também gera efeitos sonoros em estéreo a 44,1 kHz
- Os prompts de exemplo incluem door slam, sports car passing by, motorbike passing by, fireworks e reverberant footsteps inside a large rocky cave
- Nos prompts de efeitos sonoros, foi acrescentado “high-quality, stereo”, com a indicação de que essa abordagem geralmente ajuda
Comparação de modelos e reconstrução com autoencoder
- A comparação de músicas longas é organizada com base em prompts do MusicCaps
- Stable Audio: estéreo, 44,1 kHz
- MusicGen-large: mono, 32 kHz
- MusicGen-stereo: estéreo, 32 kHz
- AudioLDM2: mono, 48 kHz
- Os prompts e áudios usados na comparação foram utilizados no estudo qualitativo reportado no artigo
- A comparação de efeitos sonoros usa prompts do AudioCaps
- Stable Audio: estéreo, 44,1 kHz
- Audiogen-medium: mono, 32 kHz
- AudioLDM2: mono, 48 kHz
- Como os prompts do AudioCaps escolhidos aleatoriamente não exigem grande movimentação estéreo, os resultados acabam renderizados de forma relativamente pouco espacial
- A seção de autoencoder fornece comparações de reconstrução para avaliar a fidelidade do áudio
- À esquerda fica a gravação ground truth, e à direita o resultado após passar essa gravação ground truth pelo autoencoder
- O resultado da reconstrução é bastante transparente e muito próximo do ground truth
1 comentários
Opiniões no Hacker News
Curiosamente, Ed Newton-Rex, que havia sido contratado para criar o Stable Audio, saiu da empresa logo após o lançamento por preocupação com direitos autorais e dados de treinamento
Depois fundou https://www.fairlytrained.org/
Referência: https://x.com/ednewtonrex
Mesmo para detentores de direitos com bibliotecas de dezenas ou centenas de milhões de itens, como imagens ou trechos de áudio, menos de 1 bilhão de tokens de texto em um grande repositório não bastam para que o codificador de um modelo de geração texto-para-mídia-alvo tenha bom desempenho. O Firefly da Adobe também entra nisso
Também é um equívoco achar que ter muitos dados semelhantes nessas bibliotecas é especialmente útil. Sem um codificador de texto forte, a maioria dos modelos texto-para-mídia-alvo acaba gerando resultados com aparência ou som bastante medianos
A forma mais simples de dissipar essa suspeita é divulgar a arquitetura do modelo
De todo modo, mesmo que tudo isso seja verdade, o próprio motivo de estarmos falando de modelos de difusão e prestando atenção a um trabalho como o Fairly Trained é que alguém treinou com dados sem licença explícita
Era uma posição importante, mas “contratado para criar” faz pensar em um desenvolvedor líder ou pesquisador
Considerando que ele é um fundador com histórico na música, a saída dele também faz mais sentido
Ou talvez isso tenha sido uma etapa necessária para o modelo de negócio de certificação dele
Vejo isso como algo que não é diferente de um artista criar música influenciado pelas músicas que ouviu a vida toda. Fundamentalmente é exatamente a mesma coisa, e música ou arte não podem ser criadas no vácuo
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.Parece que demos uma volta e voltamos à era do Internet Explorer dos anos 90. A diferença, desta vez, é que o navegador dominante é open source, o que ao menos ajuda um pouco
Seria bom se alguém fizesse um botão GIF animado para Chrome dizendo “Best viewed with Google Chrome”
Ver botão: https://indiscipline.github.io/post/best-viewed-in-google-ch...
Assim como no Stable Diffusion, neste modelo o prompt de texto provavelmente será uma das formas mais difíceis de controlar para obter uma saída útil
É fácil imaginar usar MIDI como entrada junto com ControlNet, transformando-o praticamente em um sintetizador neural
Em vez disso, é melhor focar em usar IA para auxiliar o processo do artista em várias etapas da produção musical
Comparado aos modelos musicais mais recentes, como MusicGen e MusicLM, isto é incrivelmente bom. Parece também haver uma página de produto, ao estilo Midjourney, que dá para usar por assinatura: https://www.stableaudio.com/
Infelizmente, não é um modelo com pesos abertos, e também não parece ter API. É um esquema em que você gera áudio pela UI com uma assinatura mensal, não algo que desenvolvedores possam integrar ou encapsular
Fico curioso por que isso não entra simplesmente na cláusula de “produto comercial com menos de 100 mil usuários ativos mensais” e tem uma cláusula separada
O ritmo de evolução dos modelos é muito rápido, então parece que será um ano bem grande para a área de música
Acho que ainda é necessária uma etapa em que a IA primeiro aprenda como soa uma biblioteca de sons de alta qualidade e depois aplique essa capacidade aprendida para acionar os sons dessa biblioteca via MIDI
Assim, seria possível ter a criatividade da IA musical junto com uma qualidade de áudio perfeita
Não sei que dataset ou arquitetura poderia ser aplicado para isso, mas seria realmente interessante
Não quero diminuir o avanço aqui; é impressionante
Como baterista, “solo de bateria” está entre as coisas mais entediantes, e há sons estranhos misturados. No fim, acho que depende do público-alvo
Para referência, no estado atual os efeitos sonoros também não soam realistas aos meus ouvidos
Ainda assim, o salto é grande, bom trabalho
Por ter uma característica aleatória, mas não totalmente aleatória, ele produz padrões rítmicos bem irregulares. Seria bom conseguir inserir síncopes assim na hora
Só não peçam para transcrever em partitura
A consistência do tempo é excelente. Mas os ruídos desnecessários e as reverberações aleatórias dos pratos mostram as limitações do modelo
Já existem milhões de faixas de música de biblioteca e efeitos sonoros com qualidade muito melhor. Para competir com isso, seria necessário um investimento enorme em IA generativa, e, diferentemente de texto ou imagem, não parece haver viabilidade econômica
Soa mais ou menos como alguém batendo na bateria de qualquer jeito, tentando acompanhar o tempo
Por outro lado, ele se sai razoavelmente em coisas tipo música de elevador, o que bate com a expectativa
É interessante que eles publiquem o código e orientações amigáveis para treinamento, mas não publiquem o modelo
É quase como se estivessem implorando para pessoas anônimas conectarem o data loader a uma conta do Apple Music e rodarem à vontade. Claro, ninguém está sugerindo que façam isso
Fiquei momentaneamente animado com a ideia de geração de efeitos sonoros, mas aqueles “passos” são inacreditavelmente ruins
É isso mesmo, não há pesos abertos? É difícil encontrar algo dizendo claramente qual é o caso
Edit: ah, não sabia que esse comentário seria controverso. Teria sido bom responderem à pergunta antes de dar downvote, mas tudo bem
Referência: https://github.com/Stability-AI/stable-audio-tools
“Costumamos acrescentar ‘high-quality, stereo’ aos prompts de efeitos sonoros, porque geralmente ajuda.”
É engraçado terem descoberto que a saída melhora quando você simplesmente pede com educação a um LLM para produzir um resultado melhor
Como sempre acontece com computadores, eles fazem o que pedimos, não o que pretendíamos