1 pontos por GN⁺ 2023-07-18 | 1 comentários | Compartilhar no WhatsApp
  • SoundStorm é um modelo para geração de áudio eficiente e não autorregressiva.
  • Este modelo usa atenção bidirecional e decodificação paralela baseada em confiança para gerar tokens de áudio.
  • Em comparação com outras abordagens, o SoundStorm é 100 vezes mais rápido, mantendo a mesma qualidade e consistência de áudio.
  • Em TPU-v4, o SoundStorm pode gerar 30 segundos de áudio em apenas 0,5 segundo.
  • Este modelo pode sintetizar conversas naturais de alta qualidade controlando o conteúdo da fala, a voz do locutor e a alternância entre locutores.
  • SoundStorm pode gerar áudio baseado em tokens semânticos junto com um prompt de voz.
  • Este modelo gera áudio de alta qualidade mantendo a voz do locutor a partir do prompt de voz.
  • SoundStorm gera áudio de qualidade superior em comparação com outros modelos.
  • Como este modelo pode ser afetado por vieses nos dados de treinamento, é preciso cuidado para evitar uso indevido.
  • SoundStorm pode ser detectado por um classificador dedicado, reduzindo assim o risco de uso indevido.
  • Este modelo foi desenvolvido para tornar a pesquisa em geração de áudio mais acessível a uma comunidade mais ampla.

1 comentários

 
GN⁺ 2023-07-18
Comentários do Hacker News
  • A indústria de CGI avançou consideravelmente na criação de visuais e áudios realistas.
  • A tecnologia de síntese de fala atingiu um marco em que as máquinas produzem sons indistinguíveis dos humanos.
  • No passado, a tecnologia de TTS às vezes soava ruim, mas agora existem opções de alta qualidade.
  • O autor se pergunta quando essa tecnologia estará acessível em dispositivos como o Raspberry Pi.
  • Bing e Bard usam tecnologia de voz avançada, mas há o desejo de que esses avanços fiquem disponíveis por meio de APIs públicas e interfaces de usuário.
  • Novos trabalhos criados pelo avanço tecnológico muitas vezes são mal remunerados e degradantes.
  • O SoundStorm foi treinado para gerar conversas usando transcrições que marcam mudanças de voz com '|'.
  • O modelo Bark também gera conversas, mas às vezes deixa passar mudanças de voz.
  • A capacidade de gerar 30 segundos de TTS com apenas 3 segundos de material de origem é impressionante.
  • Mercados de trabalho como UpWork e Fiverr talvez precisem se adaptar à disponibilidade de softwares capazes de executar seus próprios serviços.
  • Usuários de Linux estão procurando vozes de TTS fáceis de configurar.
  • O autor do comentário não tem interesse em jogos gerados por IA e prefere diálogos de NPC escritos por humanos.
  • Os exemplos de saída do SoundStorm são impressionantes, mas têm algumas falhas sutis.
  • O uso de vozes geradas por IA em anúncios sem permissão pode causar problemas legais.
  • É fornecido um link do GitHub para o repositório SoundStorm em PyTorch.