Demo de áudio estável
(stability-ai.github.io)Aviso
- Este site pode não funcionar corretamente no Safari, e é recomendado usar o Google Chrome para a melhor experiência.
Geração estável de áudio
- O modelo pode gerar música estéreo em 44,1kHz em várias durações, com exemplos como techno de Berlim, rave, drum machine, sintetizador e músicas com atmosfera sombria.
- Diferente dos modelos de ponta anteriores, este modelo também pode gerar efeitos sonoros estéreo em 44,1kHz, com exemplos como som de porta se fechando, esportivo ou motocicleta passando, fogos de artifício e passos dentro de uma caverna.
- Todos os exemplos deste site foram criados com o mesmo modelo, capaz de gerar tanto música quanto efeitos sonoros em estéreo 44,1kHz.
Geração longa de música estéreo: comparação com o estado da arte
- É possível avaliar a qualidade do áudio por meio da comparação entre o modelo que gera música com bandolim, assobio, guitarra e flauta, e outros modelos.
- A geração de música comercial com melodia de piano, snare roll, padrão de kick, hi-hat, palmas e melodia principal de sintetizador também faz parte da comparação.
Efeitos sonoros: comparação com o estado da arte
- É possível avaliar a qualidade do áudio por meio da comparação entre o modelo que gera sons de clique de motor, rotação em alta velocidade e pássaros cantando alto, e outros modelos.
- Os prompts selecionados não exigem grande movimentação estéreo, por isso mostram resultados de renderização relativamente pouco espaciais.
Autoencoder: reconstrução
- Para avaliar a fidelidade do áudio, são comparadas a gravação original e a gravação após passar pelo autoencoder.
- A reconstrução do autoencoder é muito semelhante ao original, em um nível quase transparente.
Opinião do GN⁺
- Esta tecnologia representa um avanço importante na geração de música e efeitos sonoros, com destaque especial para a capacidade de gerar som estéreo de alta qualidade.
- A comparação com os modelos mais recentes permite avaliar objetivamente a excelente qualidade de áudio deste modelo, e espera-se que ele se torne uma ferramenta útil para criadores de conteúdo de áudio.
- A comparação de reconstrução por meio do autoencoder mostra que esta tecnologia pode restaurar o áudio original com muita precisão, sugerindo potencial de uso em aplicações sensíveis à qualidade sonora.
1 comentários
Opiniões no Hacker News
Ed Newton-Rex saiu da empresa logo após o lançamento do Stable Audio por preocupações com direitos autorais e dados de treinamento.
A situação dos anos 90 e do Internet Explorer está se repetindo, mas desta vez é positivo que o navegador dominante seja open source.
Assim como no Stable Diffusion, prompts de texto provavelmente serão a forma mais difícil de controlar para obter resultados úteis.
O Stable Audio é muito superior aos modelos musicais SOTA atuais (MusicGen, MusicLM).
Ainda é necessário um estágio em que a IA aprenda bibliotecas de sons de alta qualidade e, via MIDI, acione os sons dessas bibliotecas.
Como baterista, o "solo de bateria" é entediante, mistura sons estranhos e ainda não tem efeitos sonoros realistas.
O código e as instruções de treinamento foram divulgados, mas o modelo não.
É curioso descobrir que adicionar o prompt "alta qualidade, estéreo" geralmente ajuda.
A ideia de gerar efeitos sonoros foi interessante por um momento, mas o som de "passos" é muito ruim.
Com o prompt "música energética, violino, vocal, orquestra, piano, minimalismo, John Adams, Nixon in China", é possível gerar uma música muito singular e interessante.