OpenVoice: tecnologia versátil de clonagem instantânea de voz
- OpenVoice é uma abordagem versátil de clonagem de voz capaz de replicar uma voz a partir de apenas um curto clipe de áudio de referência e gerar fala em vários idiomas.
- A tecnologia oferece flexibilidade no controle do estilo de voz, permitindo não apenas copiar o timbre da voz de referência, mas também ajustar de forma detalhada emoções, entonação, ritmo, pausas e outros aspectos do estilo vocal.
- O OpenVoice também alcança clonagem de voz cross-lingual em zero-shot para idiomas que não estão incluídos em grandes conjuntos de dados de treinamento de locutores.
Detalhes técnicos e contribuições da pesquisa
- O OpenVoice apresenta um custo computacional dezenas de vezes mais eficiente do que APIs disponíveis comercialmente, além de oferecer excelente desempenho.
- Para impulsionar avanços adicionais na área de pesquisa, o código-fonte e os modelos treinados foram disponibilizados publicamente.
- O site de demonstração fornece resultados qualitativos, e uma versão interna anterior ao lançamento foi usada dezenas de milhões de vezes por usuários de todo o mundo entre maio e outubro de 2023.
Opinião do GN⁺
- O OpenVoice representa um avanço importante na tecnologia de clonagem de voz, especialmente por sua capacidade altamente inovadora de gerar fala em vários idiomas e estilos.
- A tecnologia tem potencial de aplicação em diversas áreas, como educação, entretenimento e serviços de voz personalizados.
- Espera-se que o código-fonte e os modelos publicados contribuam para acelerar a pesquisa em tecnologias de voz.
1 comentários
Opiniões do Hacker News
Um usuário elogia os autores por terem tornado este projeto fácil de testar. No entanto, teve resultados insatisfatórios com clonagem de voz em geral. Ele leu o primeiro parágrafo da página da Wikipédia sobre o livro e fez o sistema gerar a frase seguinte, mas o resultado soou como algo gerado por computador.
demo_part1.ipynbusando sua própria amostra de áudio. O notebook rodou quase imediatamente.Um usuário pede recomendações de bons projetos open source que possa usar quando quiser fazer clonagem de voz no próprio hardware. Ele quer saber qual é o estado da arte atual em clonagem de voz open source.
Um usuário pergunta se é possível usar esta tecnologia (ou Eleven Labs) para criar um modelo de voz que possa ser integrado ao TTS de um celular Android.
Um usuário gosta deste artigo. Ele passa a sensação de “fizemos isto e queremos ajudar outras pessoas a também conseguirem fazer”. Em especial, ele avalia positivamente a seção “Remark on Novelty”: a contribuição do OpenVoice não está em inventar submódulos da arquitetura do modelo, mas em fornecer um framework desacoplado que separa o estilo de voz e o controle de idioma da clonagem de timbre.
São fornecidos um link do GitHub e um link para os checkpoints (arquivo zip). O usuário diz que tem alergia a links diretos para arquivos zip hospedados na Amazon, então ajusta e compartilha o link dos checkpoints.
Um usuário considera impressionantes os links de exemplo fornecidos.
Um usuário espera que o YouTube proíba o uso desta tecnologia ou ao menos ofereça um recurso para filtrar esses vídeos.
Um usuário relata que, ao ligar para um dos principais bancos do Reino Unido, o banco ainda o incentivava a se cadastrar em um programa do tipo “minha voz é minha senha”. No atual estágio de avanço da IA, isso parece simplesmente imprudente.
A primeira e persistente reação de um usuário é pensar que os usos imorais ou criminosos da clonagem de voz superam em muito os usos legítimos.
O atual líder no campo de clonagem de voz open source é o RVC, e o usuário gostaria de ver como isto se compara a ele.