Projeto open source que transforma sons feitos com a boca em efeitos sonoros (New UX for sound generation)
(github.com/thxxx)Olá, criei um modelo e o disponibilizei como open source, então gostaria de compartilhá-lo.
Você já precisou de um som específico para criar um vídeo ou um jogo?
Talvez você tivesse na cabeça exatamente que som queria, mas não soubesse como expressá-lo ou encontrá-lo.
Por esse motivo, quando você participa de reuniões sobre som em estúdios de jogos, muitas vezes se ouvem mais sons assim do que conversa.
“Em vez de fiu fiu-, seria melhor algo como fiu↘︎ fiu↘︎”
Então eu fiz isso!
O modelo que criei permite imitar com a boca o som desejado e, ao inserir isso como input no modelo junto com texto, ele gera esse sound effect. (Foram usadas bastante tempo e muitos dados)
repo: https://github.com/thxxx/VTS
demo: https://spicy-pufferfish-699.notion.site/VTS-347cf95761f480f19dc0eb790…
(Se você acessar o link da demo e ouvir, vai entender muito melhor o que isso significa rs)
11 comentários
É realmente um projeto incrível!
"Como posso explicar facilmente para um agente de IA aquilo que eu quero"
Acho que esse é um ponto realmente importante hoje em dia e uma área que exige muita reflexão.
Assim como vimos a área de UI/UX dos serviços de TI evoluir, acredito que a experiência do usuário com IA também vai se acumular a partir de agora, e estou animado para ver muitas discussões sobre o que é eficaz e importante.
Parece ser ótimo para usar em trabalhos de SFX para filmes.
Isso é realmente muito divertido kkkkk
Obrigado haha
Mas, na demo, o som feito com a boca ficou até mais legal como efeito sonoro.
Depois de testar tanto, fiquei craque nisso.
Que legal. Será que, como entrada, além da voz, também daria para usar sons meio tipo Pokémon? R2D2?
Isso mesmo, como o treinamento em si não foi feito com a voz, acho que praticamente qualquer conversão de Sound to Sound deve ser possível. Mas eu ainda não testei com sons de Pokémon haha
Ah, então dá pra imaginar um LLM gerando algo como fórmulas para controlar intensidade e dinâmica de sons eletrônicos -> e, colocando isso junto com texto como entrada, sair efeitos sonoros; parece que também daria para gerar efeitos sonoros adequados para cada momento. Muito legal.
Isso é divertido demais kkkkkkk
Obrigado kkk