1 pontos por GN⁺ 2024-02-14 | 1 comentários | Compartilhar no WhatsApp

Aviso

  • Este site pode não funcionar corretamente no Safari, e é recomendado usar o Google Chrome para a melhor experiência.

Geração estável de áudio

  • O modelo pode gerar música estéreo em 44,1kHz em várias durações, com exemplos como techno de Berlim, rave, drum machine, sintetizador e músicas com atmosfera sombria.
  • Diferente dos modelos de ponta anteriores, este modelo também pode gerar efeitos sonoros estéreo em 44,1kHz, com exemplos como som de porta se fechando, esportivo ou motocicleta passando, fogos de artifício e passos dentro de uma caverna.
  • Todos os exemplos deste site foram criados com o mesmo modelo, capaz de gerar tanto música quanto efeitos sonoros em estéreo 44,1kHz.

Geração longa de música estéreo: comparação com o estado da arte

  • É possível avaliar a qualidade do áudio por meio da comparação entre o modelo que gera música com bandolim, assobio, guitarra e flauta, e outros modelos.
  • A geração de música comercial com melodia de piano, snare roll, padrão de kick, hi-hat, palmas e melodia principal de sintetizador também faz parte da comparação.

Efeitos sonoros: comparação com o estado da arte

  • É possível avaliar a qualidade do áudio por meio da comparação entre o modelo que gera sons de clique de motor, rotação em alta velocidade e pássaros cantando alto, e outros modelos.
  • Os prompts selecionados não exigem grande movimentação estéreo, por isso mostram resultados de renderização relativamente pouco espaciais.

Autoencoder: reconstrução

  • Para avaliar a fidelidade do áudio, são comparadas a gravação original e a gravação após passar pelo autoencoder.
  • A reconstrução do autoencoder é muito semelhante ao original, em um nível quase transparente.

Opinião do GN⁺

  • Esta tecnologia representa um avanço importante na geração de música e efeitos sonoros, com destaque especial para a capacidade de gerar som estéreo de alta qualidade.
  • A comparação com os modelos mais recentes permite avaliar objetivamente a excelente qualidade de áudio deste modelo, e espera-se que ele se torne uma ferramenta útil para criadores de conteúdo de áudio.
  • A comparação de reconstrução por meio do autoencoder mostra que esta tecnologia pode restaurar o áudio original com muita precisão, sugerindo potencial de uso em aplicações sensíveis à qualidade sonora.

1 comentários

 
GN⁺ 2024-02-14
Opiniões no Hacker News
  • Ed Newton-Rex saiu da empresa logo após o lançamento do Stable Audio por preocupações com direitos autorais e dados de treinamento.

    No Safari, o site pode não funcionar corretamente. Para a melhor experiência, recomenda-se usar o Google Chrome.

  • A situação dos anos 90 e do Internet Explorer está se repetindo, mas desta vez é positivo que o navegador dominante seja open source.

    • Alguém pediu que fizessem um botão GIF animado dizendo que o melhor é ver isso só no Chrome.
  • Assim como no Stable Diffusion, prompts de texto provavelmente serão a forma mais difícil de controlar para obter resultados úteis.

    • Espera-se que seja possível usar MIDI como entrada para obter um sintetizador de rede neural.
  • O Stable Audio é muito superior aos modelos musicais SOTA atuais (MusicGen, MusicLM).

    • É possível assinar e usar pela página do produto Stable Audio, mas não há uma API para desenvolvedores integrarem ou aproveitarem.
  • Ainda é necessário um estágio em que a IA aprenda bibliotecas de sons de alta qualidade e, via MIDI, acione os sons dessas bibliotecas.

    • Isso permitiria que a qualidade sonora fosse perfeita, mantendo a criatividade da IA musical.
  • Como baterista, o "solo de bateria" é entediante, mistura sons estranhos e ainda não tem efeitos sonoros realistas.

    • No entanto, o progresso alcançado é enorme e impressionante.
  • O código e as instruções de treinamento foram divulgados, mas o modelo não.

    • Na prática, isso é como incentivar usuários anônimos a conectar um data loader à própria conta do Apple Music para experimentar.
  • É curioso descobrir que adicionar o prompt "alta qualidade, estéreo" geralmente ajuda.

    • É interessante que, nos LLMs, dá para obter resultados melhores simplesmente pedindo isso.
  • A ideia de gerar efeitos sonoros foi interessante por um momento, mas o som de "passos" é muito ruim.

  • Com o prompt "música energética, violino, vocal, orquestra, piano, minimalismo, John Adams, Nixon in China", é possível gerar uma música muito singular e interessante.