7 pontos por GN⁺ 2024-04-06 | 1 comentários | Compartilhar no WhatsApp
  • O Stable Audio 2.0 estabelece um novo padrão ao oferecer faixas completas de alta qualidade geradas por IA, com até 3 minutos de duração, em estéreo de 44,1 kHz
  • Introduz um recurso de geração áudio-para-áudio que permite ao usuário enviar amostras e transformá-las usando prompts em linguagem natural
  • Foi treinado exclusivamente com um conjunto de dados licenciado da biblioteca musical AudioSparx, respeitando pedidos de "opt-out" dos criadores e garantindo compensação justa
  • É possível explorar o modelo e começar a criar gratuitamente no site do Stable Audio

Novidades

  • Pode gerar músicas com até 3 minutos de duração, oferecendo composições estruturadas com introdução, desenvolvimento e encerramento, além de efeitos sonoros em estéreo
  • Geração Audio-To-Audio : oferece suporte ao envio de arquivos de áudio para transformar ideias em samples totalmente produzidos. Os termos de serviço exigem o envio apenas de materiais sem direitos autorais, e o sistema usa reconhecimento avançado de conteúdo para evitar violações de copyright
  • Geração de variações e efeitos sonoros : amplia a produção de diversos sons e efeitos de áudio, desde o som de digitação no teclado até gritos de multidão e o zumbido das ruas da cidade
  • Transferência de estilo : modifica de forma fluida, durante o processo de geração, áudios recém-gerados ou enviados para adequá-los ao estilo e tom específicos de um projeto

Pesquisa

  • A arquitetura de modelo de difusão latente do Stable Audio 2.0 foi projetada para possibilitar a geração estruturada de faixas completas
  • Para isso, todos os componentes do sistema foram ajustados para melhorar o desempenho em períodos longos
  • Um novo autoencoder altamente comprimido comprime a forma de onda de áudio bruto em representações muito mais curtas
  • O Diffusion Transformer (DiT) é usado no lugar do U-Net anterior e é mais habilidoso para manipular dados ao longo de sequências longas

Proteções

  • Assim como o modelo 1.0, o 2.0 foi treinado com dados da AudioSparx, que incluem mais de 800.000 músicas, efeitos sonoros, arquivos stem de instrumentos isolados e seus respectivos metadados textuais
  • Todos os artistas da AudioSparx têm a opção de fazer "opt-out" do treinamento dos modelos Stable Audio
  • Para proteger os direitos dos detentores de copyright, a empresa firmou parceria com a AudibleMagic e usa sua tecnologia de reconhecimento de conteúdo (ACR) no envio de áudios, evitando infrações por meio de correspondência de conteúdo em tempo real

Stable Radio

  • Stable Radio é uma transmissão ao vivo 24/7 composta apenas por faixas geradas pelo Stable Audio, atualmente em streaming no canal do Stable Audio no YouTube

  • É possível explorar o modelo e começar a criar gratuitamente no site do Stable Audio.

Opinião do GN⁺

  • O Stable Audio 2.0 tem potencial para trazer inovação à indústria musical ao oferecer aos produtores uma ferramenta criativa baseada em IA. A capacidade de entender a intenção do usuário por meio de linguagem natural e convertê-la em música simplifica o processo criativo e amplia as oportunidades para mais pessoas participarem da produção musical.
  • Um dos problemas que essa tecnologia pode trazer é a questão dos direitos autorais. Embora a empresa afirme estar tomando medidas para evitar violações, as questões legais relacionadas à propriedade de conteúdos gerados por IA continuam complexas.
  • Um dos pontos a considerar ao introduzir IA na produção musical é a percepção sobre a originalidade e a artisticidade da música gerada por IA. É necessário discutir se a IA pode imitar ou substituir a criatividade humana e qual impacto isso terá na indústria da música.
  • Entre os benefícios do uso de ferramentas de geração musical por IA estão a redução do tempo de criação, a possibilidade de experimentar diferentes estilos e gêneros musicais e o fato de permitir que criadores façam música mesmo sem conhecimento profundo de teoria musical ou técnica instrumental.
  • Considerando o impacto positivo que essa tecnologia pode ter na educação musical, ela pode ajudar estudantes de teoria musical a explorar e compreender diferentes estilos e estruturas musicais.

1 comentários

 
GN⁺ 2024-04-06
Comentários no Hacker News
  • É uma música com IA impressionante, mas parece faltar algo porque não dá para sentir a intenção e a emoção presentes na música feita por humanos.
  • Não há menção aos direitos autorais do áudio gerado por IA, então existe uma questão importante sobre a propriedade do resultado.
  • Dei para a IA uma batida que fiz há 10 anos, e soou como se eu tivesse colocado um aparelho de som dentro da máquina de lavar. Parece que precisa de um conjunto de dados maior, mas estou pensando em assinar.
  • A Stability AI fez bem em usar um conjunto de dados licenciado para garantir uma compensação justa aos criadores.
  • Tecnicamente é impressionante, mas a música gerada por IA é mediana. Um produtor moderno de música eletrônica consegue fazer algo melhor.
  • É uma pena que a Stability AI não seja open source. Espero que não siga o mesmo caminho da OpenAI.
  • A IA tenta reconstruir amostras de áudio de forma parecida, mas é diferente de uma bateria e de uma guitarra tocadas de verdade. Ainda assim, é interessante, e espero que surjam versões melhores no futuro.
  • Eu estava cansado de ouvir synthwave para programar e procurava algo novo, então parece que a IA pode gerar playlists infinitas que sejam "boas o suficiente".
  • Não consegui gerar nada interessante com IA. O site é difícil de usar.
  • Fico me perguntando se existe uma interface no estilo do ComfyUI para modelos de áudio.