13 pontos por khj6051 6 일 전 | 11 comentários | Compartilhar no WhatsApp

Olá, criei um modelo e o disponibilizei como open source, então gostaria de compartilhá-lo.

Você já precisou de um som específico para criar um vídeo ou um jogo?

Talvez você tivesse na cabeça exatamente que som queria, mas não soubesse como expressá-lo ou encontrá-lo.

Por esse motivo, quando você participa de reuniões sobre som em estúdios de jogos, muitas vezes se ouvem mais sons assim do que conversa.

“Em vez de fiu fiu-, seria melhor algo como fiu↘︎ fiu↘︎

Então eu fiz isso!

O modelo que criei permite imitar com a boca o som desejado e, ao inserir isso como input no modelo junto com texto, ele gera esse sound effect. (Foram usadas bastante tempo e muitos dados)

repo: https://github.com/thxxx/VTS
demo: https://spicy-pufferfish-699.notion.site/VTS-347cf95761f480f19dc0eb790…

(Se você acessar o link da demo e ouvir, vai entender muito melhor o que isso significa rs)

11 comentários

 
humblebee 1 일 전

É realmente um projeto incrível!
"Como posso explicar facilmente para um agente de IA aquilo que eu quero"
Acho que esse é um ponto realmente importante hoje em dia e uma área que exige muita reflexão.

Assim como vimos a área de UI/UX dos serviços de TI evoluir, acredito que a experiência do usuário com IA também vai se acumular a partir de agora, e estou animado para ver muitas discussões sobre o que é eficaz e importante.

 
illiil1lii 1 일 전

Parece ser ótimo para usar em trabalhos de SFX para filmes.

 
solvewithit 1 일 전

Isso é realmente muito divertido kkkkk

 
khj6051 1 일 전

Obrigado haha

 
bichi 1 일 전

Mas, na demo, o som feito com a boca ficou até mais legal como efeito sonoro.

 
khj6051 1 일 전

Depois de testar tanto, fiquei craque nisso.

 
dukes123 2 일 전

Que legal. Será que, como entrada, além da voz, também daria para usar sons meio tipo Pokémon? R2D2?

 
khj6051 2 일 전

Isso mesmo, como o treinamento em si não foi feito com a voz, acho que praticamente qualquer conversão de Sound to Sound deve ser possível. Mas eu ainda não testei com sons de Pokémon haha

 
dukes123 1 일 전

Ah, então dá pra imaginar um LLM gerando algo como fórmulas para controlar intensidade e dinâmica de sons eletrônicos -> e, colocando isso junto com texto como entrada, sair efeitos sonoros; parece que também daria para gerar efeitos sonoros adequados para cada momento. Muito legal.

 
m00nlygreat 5 일 전

Isso é divertido demais kkkkkkk

 
khj6051 3 일 전

Obrigado kkk