OpenVoice: tecnologia de clonagem de voz instantânea
(github.com/myshell-ai)- OpenVoice é um projeto de clonagem de voz instantânea que replica um timbre de referência para gerar fala em vários idiomas e sotaques, e disponibiliza os recursos das versões V1 e V2
- A V1 oferece clonagem precisa de timbre, controle de estilo de fala como emoção, entonação, ritmo, pausas e variações de prosódia, além de suporte a clonagem de voz cross-language em zero-shot
- O OpenVoice V2 foi lançado em abril de 2024 e, além de incluir os recursos da V1, oferece melhor qualidade de áudio com uma estratégia de treinamento diferente
- A V2 oferece suporte multilíngue nativo para inglês, espanhol, francês, chinês, japonês e coreano, e tanto a V1 quanto a V2 podem ser usadas gratuitamente para fins comerciais e de pesquisa sob a licença MIT
- O OpenVoice vem sendo usado desde maio de 2023 no recurso de clonagem de voz instantânea da myshell.ai, e até novembro de 2023 foi utilizado dezenas de milhões de vezes por usuários no mundo todo
Recursos de clonagem de voz oferecidos pelo OpenVoice
- OpenVoice é um projeto de clonagem de voz instantânea
- O artigo relacionado está disponível como artigo no arXiv
Principais recursos do OpenVoice V1
-
Clonagem precisa de timbre
- É possível replicar com precisão um timbre de referência
- É possível gerar fala em vários idiomas e sotaques
-
Controle flexível do estilo de fala
- É possível controlar com precisão emoção e entonação
- Parâmetros de estilo como ritmo, pausas e variações de entonação também podem ser controlados
-
Clonagem de voz cross-language em zero-shot
- Não é necessário que o idioma da voz gerada e o idioma da voz de referência estejam incluídos em um grande conjunto de dados multilíngue com múltiplos locutores usado no treinamento
O que mudou no OpenVoice V2
- O OpenVoice V2 foi lançado em abril de 2024
- A V2 inclui todos os recursos da V1
- Adota uma estratégia de treinamento diferente para oferecer melhor qualidade de áudio
- Oferece suporte nativo a inglês, espanhol, francês, chinês, japonês e coreano
- Desde abril de 2024, tanto a V2 quanto a V1 são distribuídas sob a licença MIT, com uso comercial gratuito
Uso real e alcance público
- O OpenVoice vem impulsionando desde maio de 2023 o recurso de clonagem de voz instantânea da myshell.ai
- Até novembro de 2023, o modelo de clonagem de voz foi usado dezenas de milhões de vezes por usuários no mundo todo
- O README inclui uma demonstração em vídeo
Uso, licença e projetos-base
- Instruções detalhadas de uso estão na documentação de usage do repositório
- Perguntas e respostas gerais são tratadas na documentação de QA do repositório
- O OpenVoice V1 e V2 usam a licença MIT, e tanto o uso comercial quanto o uso para pesquisa são gratuitos
- A implementação é baseada em TTS, VITS, VITS2
1 comentários
Comentários no Hacker News
Isso aconteceu nos últimos dias: a polícia afirmou que um diretor esportivo criou com IA um clipe de áudio falso para incriminar o diretor da escola por comentários racistas
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
Claro que a maioria ainda assim não vai fazer fact-checking
Entramos em uma era em que as leis e a aplicação delas precisam acompanhar tudo muito rapidamente
Agora dá para criar provas históricas falsas, vazamentos falsos, declarações falsas de apoio e até anúncios falsos
As pessoas já tinham preguiça de verificar qualquer post de texto no Facetok, então daqui para frente deve ficar muito pior
Tenho dito a amigos que, daqui a 5–10 anos, quase só poderemos confiar 100% no que estiver acontecendo bem diante dos nossos olhos
Você ainda poderá optar por confiar em veículos de imprensa confiáveis para verificar as coisas, mas, por causa da polarização, uma grande parte do mundo vai presumir que já foi enganada e descartar tudo como falso
Basta olhar para o Sora ou para os novos modelos de voz. Há poucos dias, um técnico esportivo de ensino médio foi preso por clonar a voz do diretor da escola e fazê-lo dizer coisas horríveis; ele acabou sendo pego porque usou o próprio e-mail
Some a isso o fato de que o novo modelo Phi-mini da Microsoft, com 3,8 bilhões de parâmetros, se aproxima do desempenho do GPT-3.5. O GPT-3.5 tinha 175 bilhões de parâmetros, e a otimização dessa tecnologia tem apenas uns 5 anos
Quero descer desse passeio maluco do Mr Bones
Não dá para prever como o risco de a IA generativa destruir a confiança vai se desenrolar, mas estou otimista de que, no fim, a criatividade humana vai vencer
Com prática, também não é difícil imitar o jeito de falar de outra pessoa; amadores e atores profissionais fazem isso com frequência
A única mudança é que isso ficou mais fácil e, na verdade, deveria ajudar todo mundo a entender como esse tipo de “prova” é pouco confiável
Android e iOS deveriam oferecer suporte quase nativo a modificadores de voz em tempo real, com um botão rápido para desligar no discador e uma opção para desativar isso em contatos conhecidos
Vão surgir usos que realmente abalam as coisas, mas a diferença entre o que a tecnologia tornou possível agora e o que já era possível antes é muito menor do que as pessoas dizem
Isso não é clonagem, está mais para copiar o timbre. A própria documentação diz isso, mas ainda assim chamam de voice cloning
Testei com a minha voz e soou americano, não com meu sotaque suave habitual de Lancashire, e não se parecia nada comigo
O VoiceShopAi consegue transformar uma voz jovem em uma voz idosa, masculina em feminina, ou em um sotaque de qualquer país
Encontrei isso em https://github.com/metame-ai/awesome-audio-plaza, que acompanha novidades na área de áudio
Quais seriam os casos de uso legítimos dessa tecnologia? Consigo imaginar cem formas de usá-la para enganar outras pessoas, mas não consigo pensar facilmente em situações em que alguém queira clonar ou recriar a própria voz
Um desenvolvedor indie de jogos poderia criar NPCs vívidos, cada um com uma voz própria, com diálogos conduzidos por grandes modelos de linguagem
Durante a produção de um filme, falas específicas poderiam ser ajustadas com o consentimento do ator
Ela também seria necessária para pessoas que estão perdendo gradualmente a voz por problemas de saúde, mas querem continuar se comunicando
Há claramente casos de uso legítimos para essa tecnologia. Pessoalmente, acho que os usos indevidos superam os legítimos, mas não é justo dizer que não existem aplicações legítimas
O abuso deve ser criminalizado e rigidamente regulado, não proibido por completo. No caso de software e modelos pequenos, proibir também é bem difícil
Audiolivros também poderiam ser lidos com vozes diferentes para cada personagem, em vez de um único narrador tentando interpretar tudo à força
Também seria possível fazer um discurso sem tossir quando você está resfriado
Em transmissões de áudio de baixa largura de banda, poderia-se enviar apenas o texto e reproduzi-lo com um modelo de voz local
Também poderia ser usado para conversar com um ente querido que já morreu
E há usos engraçados ou cômicos
Supondo que uma tradução perfeita não seja usada de forma maliciosa, vejo isso como uma aplicação sempre útil e nada maligna
Se fosse possível devolver a ele pelo menos algo próximo da “própria” voz com base em gravações antigas, ele adoraria
Infelizmente, ainda não vi uma ferramenta que crie um modelo de voz que possa ser plugado no Android TTS ou no Windows que ele usa
Qual é um bom lugar para continuar acompanhando essa área? Quero criar com ferramentas desse tipo, mas minha voz não é lá muito boa para esse uso, então tenho bastante interesse
Para deixar mais natural, acho que conversão de voz para voz seria melhor do que conversão de texto em fala. Usei um pouco ferramentas como RVC, mas sinto que deve haver muitos fluxos de trabalho excelentes que estou deixando passar no meio do ruído de IA
Tenho especial curiosidade sobre fluxos de trabalho interessantes e pessoas criando coisas divertidas com IA
Há bastante apocalipse e drama exagerado por aqui. Comparado aos métodos existentes de IA para clonagem de voz que já podiam ser usados publicamente há cerca de um ano, por que esta divulgação seria tão pior assim?
Estou realmente ansioso para que a clonagem de voz traga audiolivros lidos com a voz do autor
Claro que não vai ser tão bom quanto o próprio autor lendo, mas há algo na voz do autor que um narrador profissional não consegue entregar. Narradores têm uma pronúncia genérica e exagerada demais, e pessoalmente sinto menos conexão
A IA não vai conseguir fazer isso. Por melhor que fique, não consegue ler a mente do autor. O resultado será ainda mais genérico do que o de um leitor humano
Um dublador/narrador treinado faz isso muito melhor e também consegue ajustar a voz ao clima
Se for uma autobiografia, tudo bem, mas nesses casos o autor geralmente já lê ele mesmo
Talvez se for uma ferramenta como o Descript, em que o autor ajusta a pronúncia depois da narração; mas não quero a voz do autor
Tenho interesse em treinar um modelo com a voz da Allyson Johnson para narrar os livros de Honor Harrington e regravar 1 ou 2 volumes dos spin-offs que usaram outro narrador. Esse narrador era horrível
Também poderia servir para arrumar, na série Wheel of Time, o fato de os mesmos dois narradores aparecerem, mas mudarem a pronúncia de vários nomes e palavras de um livro para outro. “Moghedien” se destaca especialmente
Eles pronunciam de pelo menos três formas: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
Além disso, há dezenas de milhares de livros que nunca sairão em formato de áudio se não usarem IA
Relacionado: https://github.com/topics/voice-clone
Até agora, toda vez que tentei, soava simplesmente como uma nova voz aleatória, que não era nem a minha voz-alvo nem a voz original
Vejo alguns notebooks Python, mas teria sido melhor se houvesse código de exemplo no README