Visão geral do WhisperSpeech
- O WhisperSpeech é um sistema open source de texto para fala criado a partir da engenharia reversa do Whisper.
- O modelo foi projetado para ser poderoso e fácil de customizar, além de poder ser usado com segurança para fins comerciais.
- Atualmente, o modelo foi treinado com base no dataset inglês LibreLight, e a próxima versão deve oferecer suporte a vários idiomas.
Atualização de progresso [2024-01-18]
- Na última semana, o foco foi a otimização do desempenho de inferência.
- Com a integração do
torch.compile, adição de cache de KV e ajustes em algumas camadas, ele está funcionando a uma velocidade 12 vezes maior que o tempo real em uma 4090 de consumidor.
- Foi adicionada a capacidade de misturar vários idiomas em uma única frase.
- Também foi adicionada uma forma de testar facilmente a clonagem de voz.
Atualização de progresso [2024-01-10]
- Foi lançado um novo modelo SD S2A que gera voz mais rapidamente e com alta qualidade.
- Também foram adicionados exemplos de clonagem de voz com base em arquivos de áudio de referência.
Atualização de progresso [2023-12-10]
- Foram adicionados 3 novos modelos com suporte a inglês e polonês.
- Há novas amostras de voz disponíveis, e é possível testá-las diretamente no Colab.
Download
- Recomenda-se usar o link do Google Colab como ponto de partida ou executar localmente o notebook fornecido.
- Se quiser fazer o download manualmente ou treinar o modelo do zero, é possível usar os modelos pré-treinados do WhisperSpeech e os datasets convertidos no HuggingFace.
Roteiro
- Coletar um dataset maior de vozes emocionais
- Encontrar uma forma de controlar a geração de acordo com emoção e entonação
- Criar um esforço comunitário para reunir vozes de uso livre em vários idiomas
- Treinar o modelo multilíngue final
Arquitetura
- Tem uma arquitetura geral semelhante a AudioLM, SPEAR TTS e MusicGen.
- Foi construído com base em modelos open source poderosos: Whisper da OpenAI para geração de tokens semânticos e transcrição, EnCodec da Meta para modelagem acústica e Vocos da Charactr Inc como vocoder de alta qualidade.
Agradecimentos
- Este trabalho foi possível graças ao apoio da Collabora, LAION, Jülich Supercomputing Centre e à ajuda de contribuidores individuais.
Consultoria
- É possível oferecer ajuda para projetos de IA open source e proprietários.
Citação
- O projeto depende de vários excelentes projetos open source e artigos de pesquisa.
Opinião do GN⁺
- O WhisperSpeech é um projeto open source inovador na área de síntese de voz, oferecendo um modelo poderoso de texto para fala com suporte a vários idiomas e seguro para uso comercial.
- Aproveita tecnologias de ponta para alcançar desempenho muito superior ao tempo real e oferece acessibilidade para testar facilmente recursos avançados como clonagem de voz.
- O projeto está evoluindo com base na comunidade e busca expandir para vários idiomas e incluir geração de voz com elementos emocionais, sendo esperado que desempenhe um papel importante no futuro da tecnologia de voz.
1 comentários
Comentários no Hacker News
Projeto do modelo ASR multilíngue Whisper
Opinião do desenvolvedor do WhisperSpeech
Interesse em síntese de voz em chinês
Menção ao Mimic 3 da Mycroft
Pergunta sobre modelos baseados no Alfabeto Fonético Internacional (IPA)
Observação sobre treinamento de voz personalizada com Piper
Avaliação da amostra em polonês
Pergunta sobre possibilidade de controlar a voz
Dúvida sobre um demo treinado com clipes de baixa qualidade de Winston Churchill
Avaliação positiva sobre o TTS