Stable Audio 2.0

(stability.ai)

7 pontos por GN⁺ 2024-04-06 | 1 comentários | Compartilhar no WhatsApp

O Stable Audio 2.0 estabelece um novo padrão ao oferecer faixas completas de alta qualidade geradas por IA, com até 3 minutos de duração, em estéreo de 44,1 kHz
Introduz um recurso de geração áudio-para-áudio que permite ao usuário enviar amostras e transformá-las usando prompts em linguagem natural
Foi treinado exclusivamente com um conjunto de dados licenciado da biblioteca musical AudioSparx, respeitando pedidos de "opt-out" dos criadores e garantindo compensação justa
É possível explorar o modelo e começar a criar gratuitamente no site do Stable Audio

Novidades

Pode gerar músicas com até 3 minutos de duração, oferecendo composições estruturadas com introdução, desenvolvimento e encerramento, além de efeitos sonoros em estéreo
Geração Audio-To-Audio : oferece suporte ao envio de arquivos de áudio para transformar ideias em samples totalmente produzidos. Os termos de serviço exigem o envio apenas de materiais sem direitos autorais, e o sistema usa reconhecimento avançado de conteúdo para evitar violações de copyright
Geração de variações e efeitos sonoros : amplia a produção de diversos sons e efeitos de áudio, desde o som de digitação no teclado até gritos de multidão e o zumbido das ruas da cidade
Transferência de estilo : modifica de forma fluida, durante o processo de geração, áudios recém-gerados ou enviados para adequá-los ao estilo e tom específicos de um projeto

A arquitetura de modelo de difusão latente do Stable Audio 2.0 foi projetada para possibilitar a geração estruturada de faixas completas
Para isso, todos os componentes do sistema foram ajustados para melhorar o desempenho em períodos longos
Um novo autoencoder altamente comprimido comprime a forma de onda de áudio bruto em representações muito mais curtas
O Diffusion Transformer (DiT) é usado no lugar do U-Net anterior e é mais habilidoso para manipular dados ao longo de sequências longas

Assim como o modelo 1.0, o 2.0 foi treinado com dados da AudioSparx, que incluem mais de 800.000 músicas, efeitos sonoros, arquivos stem de instrumentos isolados e seus respectivos metadados textuais
Todos os artistas da AudioSparx têm a opção de fazer "opt-out" do treinamento dos modelos Stable Audio
Para proteger os direitos dos detentores de copyright, a empresa firmou parceria com a AudibleMagic e usa sua tecnologia de reconhecimento de conteúdo (ACR) no envio de áudios, evitando infrações por meio de correspondência de conteúdo em tempo real

Stable Radio é uma transmissão ao vivo 24/7 composta apenas por faixas geradas pelo Stable Audio, atualmente em streaming no canal do Stable Audio no YouTube
É possível explorar o modelo e começar a criar gratuitamente no site do Stable Audio.

O Stable Audio 2.0 tem potencial para trazer inovação à indústria musical ao oferecer aos produtores uma ferramenta criativa baseada em IA. A capacidade de entender a intenção do usuário por meio de linguagem natural e convertê-la em música simplifica o processo criativo e amplia as oportunidades para mais pessoas participarem da produção musical.
Um dos problemas que essa tecnologia pode trazer é a questão dos direitos autorais. Embora a empresa afirme estar tomando medidas para evitar violações, as questões legais relacionadas à propriedade de conteúdos gerados por IA continuam complexas.
Um dos pontos a considerar ao introduzir IA na produção musical é a percepção sobre a originalidade e a artisticidade da música gerada por IA. É necessário discutir se a IA pode imitar ou substituir a criatividade humana e qual impacto isso terá na indústria da música.
Entre os benefícios do uso de ferramentas de geração musical por IA estão a redução do tempo de criação, a possibilidade de experimentar diferentes estilos e gêneros musicais e o fato de permitir que criadores façam música mesmo sem conhecimento profundo de teoria musical ou técnica instrumental.
Considerando o impacto positivo que essa tecnologia pode ter na educação musical, ela pode ajudar estudantes de teoria musical a explorar e compreender diferentes estilos e estruturas musicais.

GN⁺ 2024-04-06

É uma música com IA impressionante, mas parece faltar algo porque não dá para sentir a intenção e a emoção presentes na música feita por humanos.
Não há menção aos direitos autorais do áudio gerado por IA, então existe uma questão importante sobre a propriedade do resultado.
Dei para a IA uma batida que fiz há 10 anos, e soou como se eu tivesse colocado um aparelho de som dentro da máquina de lavar. Parece que precisa de um conjunto de dados maior, mas estou pensando em assinar.
A Stability AI fez bem em usar um conjunto de dados licenciado para garantir uma compensação justa aos criadores.
Tecnicamente é impressionante, mas a música gerada por IA é mediana. Um produtor moderno de música eletrônica consegue fazer algo melhor.
É uma pena que a Stability AI não seja open source. Espero que não siga o mesmo caminho da OpenAI.
A IA tenta reconstruir amostras de áudio de forma parecida, mas é diferente de uma bateria e de uma guitarra tocadas de verdade. Ainda assim, é interessante, e espero que surjam versões melhores no futuro.
Eu estava cansado de ouvir synthwave para programar e procurava algo novo, então parece que a IA pode gerar playlists infinitas que sejam "boas o suficiente".
Não consegui gerar nada interessante com IA. O site é difícil de usar.
Fico me perguntando se existe uma interface no estilo do ComfyUI para modelos de áudio.