WhisperSpeech – sistema de síntese de voz open source construído a partir da engenharia reversa do Whisper

(github.com/collabora)

10 pontos por GN⁺ 2024-01-19 | 1 comentários | Compartilhar no WhatsApp

Visão geral do WhisperSpeech

O WhisperSpeech é um sistema open source de texto para fala criado a partir da engenharia reversa do Whisper.
O modelo foi projetado para ser poderoso e fácil de customizar, além de poder ser usado com segurança para fins comerciais.
Atualmente, o modelo foi treinado com base no dataset inglês LibreLight, e a próxima versão deve oferecer suporte a vários idiomas.

Atualização de progresso [2024-01-18]

Na última semana, o foco foi a otimização do desempenho de inferência.
Com a integração do torch.compile, adição de cache de KV e ajustes em algumas camadas, ele está funcionando a uma velocidade 12 vezes maior que o tempo real em uma 4090 de consumidor.
Foi adicionada a capacidade de misturar vários idiomas em uma única frase.
Também foi adicionada uma forma de testar facilmente a clonagem de voz.

Atualização de progresso [2024-01-10]

Foi lançado um novo modelo SD S2A que gera voz mais rapidamente e com alta qualidade.
Também foram adicionados exemplos de clonagem de voz com base em arquivos de áudio de referência.

Atualização de progresso [2023-12-10]

Foram adicionados 3 novos modelos com suporte a inglês e polonês.
Há novas amostras de voz disponíveis, e é possível testá-las diretamente no Colab.

Download

Recomenda-se usar o link do Google Colab como ponto de partida ou executar localmente o notebook fornecido.
Se quiser fazer o download manualmente ou treinar o modelo do zero, é possível usar os modelos pré-treinados do WhisperSpeech e os datasets convertidos no HuggingFace.

Roteiro

Coletar um dataset maior de vozes emocionais
Encontrar uma forma de controlar a geração de acordo com emoção e entonação
Criar um esforço comunitário para reunir vozes de uso livre em vários idiomas
Treinar o modelo multilíngue final

Arquitetura

Tem uma arquitetura geral semelhante a AudioLM, SPEAR TTS e MusicGen.
Foi construído com base em modelos open source poderosos: Whisper da OpenAI para geração de tokens semânticos e transcrição, EnCodec da Meta para modelagem acústica e Vocos da Charactr Inc como vocoder de alta qualidade.

Agradecimentos

Este trabalho foi possível graças ao apoio da Collabora, LAION, Jülich Supercomputing Centre e à ajuda de contribuidores individuais.

Consultoria

É possível oferecer ajuda para projetos de IA open source e proprietários.

Citação

O projeto depende de vários excelentes projetos open source e artigos de pesquisa.

Opinião do GN⁺

O WhisperSpeech é um projeto open source inovador na área de síntese de voz, oferecendo um modelo poderoso de texto para fala com suporte a vários idiomas e seguro para uso comercial.
Aproveita tecnologias de ponta para alcançar desempenho muito superior ao tempo real e oferece acessibilidade para testar facilmente recursos avançados como clonagem de voz.
O projeto está evoluindo com base na comunidade e busca expandir para vários idiomas e incluir geração de voz com elementos emocionais, sendo esperado que desempenhe um papel importante no futuro da tecnologia de voz.

1 comentários

GN⁺ 2024-01-19

Comentários no Hacker News

Projeto do modelo ASR multilíngue Whisper
- O modelo ASR multilíngue Whisper foi treinado com uma grande quantidade de dados e tem saídas de codificador que representam bem o conteúdo semântico da fala.
- Esse codificador pode ser usado como substituto open source do codificador semântico em arquiteturas de modelos como SPEAR-TTS/VALL-E.
- Os tokens acústicos previstos são aprimorados com upsampling/remoção de ruído/melhorias pelo vocoder Vocos.
- Atualmente, o principal gargalo é a falta de mão de obra necessária para obter e refinar um conjunto de dados adequado.
Opinião do desenvolvedor do WhisperSpeech
- Ele trabalhou duro por vários meses para melhorar o modelo, mas ainda há bastante espaço para melhorias.
- Com o apoio da Collabora, o projeto é realmente open source e ele quer oferecer ajuda a quem quiser melhorar ou integrar a solução.
- Se quiser usar para fins comerciais, é possível comprar suporte de engenharia.
Interesse em síntese de voz em chinês
- Há interesse no desempenho da síntese de voz em chinês, especialmente em entonação e expressão emocional.
- EmotiVoice é o modelo open source de melhor qualidade que a pessoa já viu até agora, e ela criou um wrapper de CLI para gerar áudio para flashcards.
- Também é possível clonar a própria voz usando o EmotiVoice com GPU, mas isso ainda não foi testado.
Menção ao Mimic 3 da Mycroft
- O Mimic 3 da Mycroft não usa o estado da arte, mas ainda assim é impressionante e pequeno o bastante para gerar fala em tempo real num Raspberry Pi.
- Algumas vozes são melhores que outras, e estão no mesmo nível dos exemplos do WhisperSpeech.
Pergunta sobre modelos baseados no Alfabeto Fonético Internacional (IPA)
- Houve uma pergunta sobre o desenvolvimento/progresso de modelos baseados em IPA.
- Essa abordagem pode ser útil para mudar a voz para outros sotaques ou oferecer suporte multilíngue.
- Em modelos como as vozes do MBROLA, isso pode ser feito de forma limitada ao mapear fonemas de um idioma para fonemas de outro.
- A abordagem baseada em IPA pode permitir aprender melhor as mudanças na qualidade e no timbre da voz.
Observação sobre treinamento de voz personalizada com Piper
- Ao ver um vídeo sobre treinar uma voz personalizada com Piper, foi observado que os metadados necessários no conjunto de dados são os textos correspondentes aos arquivos de áudio de origem.
- O método de treinamento da Collabora automatiza esse processo e requer apenas os arquivos de áudio para o treinamento.
Avaliação da amostra em polonês
- A amostra em polonês está muito boa e soa como uma gravação de audiolivro.
Pergunta sobre possibilidade de controlar a voz
- Há interesse em saber quão controlável é a voz ao aplicar TTS a um sistema de chat.
- Seria necessário o maior número possível de vozes diferentes para que cada usuário pudesse ter uma voz única.
Dúvida sobre um demo treinado com clipes de baixa qualidade de Winston Churchill
- Foi levantada a dúvida de “garbage in, garbage out” em relação a um demo treinado com clipes de áudio de baixa qualidade.
Avaliação positiva sobre o TTS
- É o melhor TTS que a pessoa já ouviu até agora, com modulação de voz semelhante à humana.

WhisperSpeech – sistema de síntese de voz open source construído a partir da engenharia reversa do Whisper

Visão geral do WhisperSpeech

Atualização de progresso [2024-01-18]

Atualização de progresso [2024-01-10]

Atualização de progresso [2023-12-10]

Download

Roteiro

Arquitetura

Agradecimentos

Consultoria

Citação

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários no Hacker News