10 pontos por GN⁺ 2024-01-19 | 1 comentários | Compartilhar no WhatsApp

Visão geral do WhisperSpeech

  • O WhisperSpeech é um sistema open source de texto para fala criado a partir da engenharia reversa do Whisper.
  • O modelo foi projetado para ser poderoso e fácil de customizar, além de poder ser usado com segurança para fins comerciais.
  • Atualmente, o modelo foi treinado com base no dataset inglês LibreLight, e a próxima versão deve oferecer suporte a vários idiomas.

Atualização de progresso [2024-01-18]

  • Na última semana, o foco foi a otimização do desempenho de inferência.
  • Com a integração do torch.compile, adição de cache de KV e ajustes em algumas camadas, ele está funcionando a uma velocidade 12 vezes maior que o tempo real em uma 4090 de consumidor.
  • Foi adicionada a capacidade de misturar vários idiomas em uma única frase.
  • Também foi adicionada uma forma de testar facilmente a clonagem de voz.

Atualização de progresso [2024-01-10]

  • Foi lançado um novo modelo SD S2A que gera voz mais rapidamente e com alta qualidade.
  • Também foram adicionados exemplos de clonagem de voz com base em arquivos de áudio de referência.

Atualização de progresso [2023-12-10]

  • Foram adicionados 3 novos modelos com suporte a inglês e polonês.
  • Há novas amostras de voz disponíveis, e é possível testá-las diretamente no Colab.

Download

  • Recomenda-se usar o link do Google Colab como ponto de partida ou executar localmente o notebook fornecido.
  • Se quiser fazer o download manualmente ou treinar o modelo do zero, é possível usar os modelos pré-treinados do WhisperSpeech e os datasets convertidos no HuggingFace.

Roteiro

  • Coletar um dataset maior de vozes emocionais
  • Encontrar uma forma de controlar a geração de acordo com emoção e entonação
  • Criar um esforço comunitário para reunir vozes de uso livre em vários idiomas
  • Treinar o modelo multilíngue final

Arquitetura

  • Tem uma arquitetura geral semelhante a AudioLM, SPEAR TTS e MusicGen.
  • Foi construído com base em modelos open source poderosos: Whisper da OpenAI para geração de tokens semânticos e transcrição, EnCodec da Meta para modelagem acústica e Vocos da Charactr Inc como vocoder de alta qualidade.

Agradecimentos

  • Este trabalho foi possível graças ao apoio da Collabora, LAION, Jülich Supercomputing Centre e à ajuda de contribuidores individuais.

Consultoria

  • É possível oferecer ajuda para projetos de IA open source e proprietários.

Citação

  • O projeto depende de vários excelentes projetos open source e artigos de pesquisa.

Opinião do GN⁺

  • O WhisperSpeech é um projeto open source inovador na área de síntese de voz, oferecendo um modelo poderoso de texto para fala com suporte a vários idiomas e seguro para uso comercial.
  • Aproveita tecnologias de ponta para alcançar desempenho muito superior ao tempo real e oferece acessibilidade para testar facilmente recursos avançados como clonagem de voz.
  • O projeto está evoluindo com base na comunidade e busca expandir para vários idiomas e incluir geração de voz com elementos emocionais, sendo esperado que desempenhe um papel importante no futuro da tecnologia de voz.

1 comentários

 
GN⁺ 2024-01-19
Comentários no Hacker News
  • Projeto do modelo ASR multilíngue Whisper

    • O modelo ASR multilíngue Whisper foi treinado com uma grande quantidade de dados e tem saídas de codificador que representam bem o conteúdo semântico da fala.
    • Esse codificador pode ser usado como substituto open source do codificador semântico em arquiteturas de modelos como SPEAR-TTS/VALL-E.
    • Os tokens acústicos previstos são aprimorados com upsampling/remoção de ruído/melhorias pelo vocoder Vocos.
    • Atualmente, o principal gargalo é a falta de mão de obra necessária para obter e refinar um conjunto de dados adequado.
  • Opinião do desenvolvedor do WhisperSpeech

    • Ele trabalhou duro por vários meses para melhorar o modelo, mas ainda há bastante espaço para melhorias.
    • Com o apoio da Collabora, o projeto é realmente open source e ele quer oferecer ajuda a quem quiser melhorar ou integrar a solução.
    • Se quiser usar para fins comerciais, é possível comprar suporte de engenharia.
  • Interesse em síntese de voz em chinês

    • Há interesse no desempenho da síntese de voz em chinês, especialmente em entonação e expressão emocional.
    • EmotiVoice é o modelo open source de melhor qualidade que a pessoa já viu até agora, e ela criou um wrapper de CLI para gerar áudio para flashcards.
    • Também é possível clonar a própria voz usando o EmotiVoice com GPU, mas isso ainda não foi testado.
  • Menção ao Mimic 3 da Mycroft

    • O Mimic 3 da Mycroft não usa o estado da arte, mas ainda assim é impressionante e pequeno o bastante para gerar fala em tempo real num Raspberry Pi.
    • Algumas vozes são melhores que outras, e estão no mesmo nível dos exemplos do WhisperSpeech.
  • Pergunta sobre modelos baseados no Alfabeto Fonético Internacional (IPA)

    • Houve uma pergunta sobre o desenvolvimento/progresso de modelos baseados em IPA.
    • Essa abordagem pode ser útil para mudar a voz para outros sotaques ou oferecer suporte multilíngue.
    • Em modelos como as vozes do MBROLA, isso pode ser feito de forma limitada ao mapear fonemas de um idioma para fonemas de outro.
    • A abordagem baseada em IPA pode permitir aprender melhor as mudanças na qualidade e no timbre da voz.
  • Observação sobre treinamento de voz personalizada com Piper

    • Ao ver um vídeo sobre treinar uma voz personalizada com Piper, foi observado que os metadados necessários no conjunto de dados são os textos correspondentes aos arquivos de áudio de origem.
    • O método de treinamento da Collabora automatiza esse processo e requer apenas os arquivos de áudio para o treinamento.
  • Avaliação da amostra em polonês

    • A amostra em polonês está muito boa e soa como uma gravação de audiolivro.
  • Pergunta sobre possibilidade de controlar a voz

    • Há interesse em saber quão controlável é a voz ao aplicar TTS a um sistema de chat.
    • Seria necessário o maior número possível de vozes diferentes para que cada usuário pudesse ter uma voz única.
  • Dúvida sobre um demo treinado com clipes de baixa qualidade de Winston Churchill

    • Foi levantada a dúvida de “garbage in, garbage out” em relação a um demo treinado com clipes de áudio de baixa qualidade.
  • Avaliação positiva sobre o TTS

    • É o melhor TTS que a pessoa já ouviu até agora, com modulação de voz semelhante à humana.