OpenVoice: tecnologia de clonagem de voz instantânea
(github.com/myshell-ai)Introdução ao OpenVoice V1
- As vantagens do OpenVoice são as seguintes:
- Clonagem precisa de timbre: o OpenVoice consegue reproduzir com precisão o timbre de referência e gerar voz em vários idiomas e sotaques.
- Controle flexível do estilo de voz: o OpenVoice permite controlar em detalhes o estilo da voz, como emoção e entonação, além de outros parâmetros de estilo como ritmo, pausas e prosódia.
- Clonagem de voz multilíngue zero-shot: nem o idioma da voz gerada nem o idioma da voz de referência precisam necessariamente estar presentes em um grande conjunto de dados multilíngue de treinamento de locutores.
Introdução ao OpenVoice V2
- Em abril de 2024, o OpenVoice V2 foi lançado, incluindo todos os recursos da V1 e adicionando os seguintes:
- Melhor qualidade de áudio: o OpenVoice V2 adota uma estratégia de treinamento diferente que oferece melhor qualidade de áudio.
- Suporte multilíngue nativo: inglês, espanhol, francês, chinês, japonês e coreano são suportados nativamente no OpenVoice V2.
- Uso comercial gratuito: desde abril de 2024, V2 e V1 são distribuídos sob a licença MIT, com uso comercial gratuito.
Status de uso do OpenVoice
- O OpenVoice vem fornecendo o recurso de clonagem de voz instantânea do myshell.ai desde maio de 2023.
- Até novembro de 2023, o modelo de clonagem de voz havia sido usado dezenas de milhões de vezes por usuários em todo o mundo, e a plataforma testemunhou um crescimento explosivo de usuários.
Principais contribuidores
- Zengyi Qin (MIT, MyShell)
- Wenliang Zhao (Tsinghua University)
- Xumin Yu (Tsinghua University)
- Ethan Sun (MyShell)
Como usar
- Para instruções detalhadas de uso, consulte usage.
Problemas comuns
- Para perguntas e respostas frequentes, consulte QA.
- A lista de perguntas e respostas será atualizada regularmente.
Participação da comunidade
- Entre na comunidade do Discord e, ao entrar, selecione a função 'Developer' para obter acesso exclusivo aos canais dedicados a desenvolvedores.
- Não perca discussões úteis e oportunidades de colaboração.
Citação
- Esta implementação é baseada em alguns excelentes projetos, como TTS, VITS e VITS2.
- Agradecimentos pelo excelente trabalho deles.
Licença
- OpenVoice V1 e V2 usam a licença MIT, e tanto o uso comercial quanto o uso para pesquisa são gratuitos.
Opinião do GN⁺
-
O OpenVoice é uma ferramenta poderosa que permite gerar facilmente vozes com diferentes idiomas e emoções. Isso parece poder ser aplicado em várias áreas, como filmes, animação e jogos.
-
No entanto, por ser possível clonar vozes com tanta facilidade, há potencial para uso indevido. Por exemplo, podem surgir problemas como a criação de vídeos deepfake usando a voz de celebridades sem permissão. Parece necessário preparar medidas para isso.
-
Produtos comerciais com recursos semelhantes aos do OpenVoice incluem Lyrebird, Resemble.ai e Descript. Eles são usados principalmente em suporte ao cliente, call centers e dublagem de vídeo.
-
Ao adotar o OpenVoice, é preciso atenção a questões de segurança de dados e direitos autorais. Também é necessário verificar a naturalidade da voz gerada e a precisão da pronúncia.
-
Como foi lançado como open source, espera-se uma melhoria contínua de desempenho com a participação de vários desenvolvedores. Resta acompanhar se conseguirá oferecer qualidade de áudio e recursos no nível de produtos comerciais.
1 comentários
Comentários no Hacker News