OpenVoice: tecnologia de clonagem de voz instantânea

(github.com/myshell-ai)

5 pontos por GN⁺ 2024-04-28 | 1 comentários | Compartilhar no WhatsApp

OpenVoice é um projeto de clonagem de voz instantânea que replica um timbre de referência para gerar fala em vários idiomas e sotaques, e disponibiliza os recursos das versões V1 e V2
A V1 oferece clonagem precisa de timbre, controle de estilo de fala como emoção, entonação, ritmo, pausas e variações de prosódia, além de suporte a clonagem de voz cross-language em zero-shot
O OpenVoice V2 foi lançado em abril de 2024 e, além de incluir os recursos da V1, oferece melhor qualidade de áudio com uma estratégia de treinamento diferente
A V2 oferece suporte multilíngue nativo para inglês, espanhol, francês, chinês, japonês e coreano, e tanto a V1 quanto a V2 podem ser usadas gratuitamente para fins comerciais e de pesquisa sob a licença MIT
O OpenVoice vem sendo usado desde maio de 2023 no recurso de clonagem de voz instantânea da myshell.ai, e até novembro de 2023 foi utilizado dezenas de milhões de vezes por usuários no mundo todo

Recursos de clonagem de voz oferecidos pelo OpenVoice

OpenVoice é um projeto de clonagem de voz instantânea
O artigo relacionado está disponível como artigo no arXiv

Principais recursos do OpenVoice V1

Clonagem precisa de timbre
- É possível replicar com precisão um timbre de referência
- É possível gerar fala em vários idiomas e sotaques
Controle flexível do estilo de fala
- É possível controlar com precisão emoção e entonação
- Parâmetros de estilo como ritmo, pausas e variações de entonação também podem ser controlados
Clonagem de voz cross-language em zero-shot
- Não é necessário que o idioma da voz gerada e o idioma da voz de referência estejam incluídos em um grande conjunto de dados multilíngue com múltiplos locutores usado no treinamento

O que mudou no OpenVoice V2

O OpenVoice V2 foi lançado em abril de 2024
A V2 inclui todos os recursos da V1
Adota uma estratégia de treinamento diferente para oferecer melhor qualidade de áudio
Oferece suporte nativo a inglês, espanhol, francês, chinês, japonês e coreano
Desde abril de 2024, tanto a V2 quanto a V1 são distribuídas sob a licença MIT, com uso comercial gratuito

Uso real e alcance público

O OpenVoice vem impulsionando desde maio de 2023 o recurso de clonagem de voz instantânea da myshell.ai
Até novembro de 2023, o modelo de clonagem de voz foi usado dezenas de milhões de vezes por usuários no mundo todo
O README inclui uma demonstração em vídeo

Uso, licença e projetos-base

Instruções detalhadas de uso estão na documentação de usage do repositório
Perguntas e respostas gerais são tratadas na documentação de QA do repositório
O OpenVoice V1 e V2 usam a licença MIT, e tanto o uso comercial quanto o uso para pesquisa são gratuitos
A implementação é baseada em TTS, VITS, VITS2

1 comentários

GN⁺ 2024-04-28

Comentários no Hacker News

Isso aconteceu nos últimos dias: a polícia afirmou que um diretor esportivo criou com IA um clipe de áudio falso para incriminar o diretor da escola por comentários racistas
https://apnews.com/article/ai-artificial-intelligence-principal-audio-maryland-baltimore-county-pikesville-853ed171369bcbb888eb54f55195cb9c
- Por isso, essa tecnologia precisa se tornar amplamente usada e conhecida. As pessoas precisam ficar mais alertas, não acreditar em qualquer coisa e verificar as fontes
  Claro que a maioria ainda assim não vai fazer fact-checking
Entramos em uma era em que as leis e a aplicação delas precisam acompanhar tudo muito rapidamente
Agora dá para criar provas históricas falsas, vazamentos falsos, declarações falsas de apoio e até anúncios falsos
As pessoas já tinham preguiça de verificar qualquer post de texto no Facetok, então daqui para frente deve ficar muito pior
- Parece uma transição da hipernormalização para o hiper-real
  Tenho dito a amigos que, daqui a 5–10 anos, quase só poderemos confiar 100% no que estiver acontecendo bem diante dos nossos olhos
  Você ainda poderá optar por confiar em veículos de imprensa confiáveis para verificar as coisas, mas, por causa da polarização, uma grande parte do mundo vai presumir que já foi enganada e descartar tudo como falso
  Basta olhar para o Sora ou para os novos modelos de voz. Há poucos dias, um técnico esportivo de ensino médio foi preso por clonar a voz do diretor da escola e fazê-lo dizer coisas horríveis; ele acabou sendo pego porque usou o próprio e-mail
  Some a isso o fato de que o novo modelo Phi-mini da Microsoft, com 3,8 bilhões de parâmetros, se aproxima do desempenho do GPT-3.5. O GPT-3.5 tinha 175 bilhões de parâmetros, e a otimização dessa tecnologia tem apenas uns 5 anos
  Quero descer desse passeio maluco do Mr Bones
- Confiança é uma dependência da existência humana. Ela é necessária não só para a civilização, mas também para comunidades muito pequenas e para as trocas básicas de ideias, produtos e serviços
  Não dá para prever como o risco de a IA generativa destruir a confiança vai se desenrolar, mas estou otimista de que, no fim, a criatividade humana vai vencer
- Um arquivo de áudio digital dificilmente pode ser considerado prova de alguma coisa. Mesmo sem clonagem de voz, dá para recortar, colar e editar áudio para produzir quase qualquer coisa que se queira
  Com prática, também não é difícil imitar o jeito de falar de outra pessoa; amadores e atores profissionais fazem isso com frequência
  A única mudança é que isso ficou mais fácil e, na verdade, deveria ajudar todo mundo a entender como esse tipo de “prova” é pouco confiável
- Isso também é um grande problema, mas o problema maior é uma chamada de spam conseguir uns 10 segundos da minha voz e depois ligar para meu banco ou minha família usando a minha voz
  Android e iOS deveriam oferecer suporte quase nativo a modificadores de voz em tempo real, com um botão rápido para desligar no discador e uma opção para desativar isso em contatos conhecidos
- Passei a ver o exagero em torno do uso criminoso e malicioso de IA como algo parecido com outros exageros sobre usos de IA
  Vão surgir usos que realmente abalam as coisas, mas a diferença entre o que a tecnologia tornou possível agora e o que já era possível antes é muito menor do que as pessoas dizem
Isso não é clonagem, está mais para copiar o timbre. A própria documentação diz isso, mas ainda assim chamam de voice cloning
Testei com a minha voz e soou americano, não com meu sotaque suave habitual de Lancashire, e não se parecia nada comigo
- Usando https://voiceshopai.github.io, talvez dê para trazê-la de volta para mais perto do sotaque original
  O VoiceShopAi consegue transformar uma voz jovem em uma voz idosa, masculina em feminina, ou em um sotaque de qualquer país
  Encontrei isso em https://github.com/metame-ai/awesome-audio-plaza, que acompanha novidades na área de áudio
- Também testei com a minha voz e, felizmente, não soou nem um pouco como a minha voz
- O título ou o nome não é lá muito bom. Indo um pouco mais meta, às vezes parece que os comentários do HN hoje estão virando cada vez mais reações ao título no estilo Reddit, em vez de analisar o texto original ou a tecnologia em si
Quais seriam os casos de uso legítimos dessa tecnologia? Consigo imaginar cem formas de usá-la para enganar outras pessoas, mas não consigo pensar facilmente em situações em que alguém queira clonar ou recriar a própria voz
- Depois de gravar um podcast, você poderia usá-la para corrigir só algumas palavras sem o trabalho de regravar
  Um desenvolvedor indie de jogos poderia criar NPCs vívidos, cada um com uma voz própria, com diálogos conduzidos por grandes modelos de linguagem
  Durante a produção de um filme, falas específicas poderiam ser ajustadas com o consentimento do ator
  Ela também seria necessária para pessoas que estão perdendo gradualmente a voz por problemas de saúde, mas querem continuar se comunicando
  Há claramente casos de uso legítimos para essa tecnologia. Pessoalmente, acho que os usos indevidos superam os legítimos, mas não é justo dizer que não existem aplicações legítimas
  O abuso deve ser criminalizado e rigidamente regulado, não proibido por completo. No caso de software e modelos pequenos, proibir também é bem difícil
- É só questão de tempo até agentes como a Alexa usarem vozes personalizadas melhores
  Audiolivros também poderiam ser lidos com vozes diferentes para cada personagem, em vez de um único narrador tentando interpretar tudo à força
  Também seria possível fazer um discurso sem tossir quando você está resfriado
  Em transmissões de áudio de baixa largura de banda, poderia-se enviar apenas o texto e reproduzi-lo com um modelo de voz local
  Também poderia ser usado para conversar com um ente querido que já morreu
  E há usos engraçados ou cômicos
- Parece que você não pensou muito a respeito. A primeira coisa que me veio à cabeça foi usar clonagem da própria voz para tradução em tempo real
  Supondo que uma tradução perfeita não seja usada de forma maliciosa, vejo isso como uma aplicação sempre útil e nada maligna
- Tenho um amigo com a laringe paralisada, então ele costuma digitar no celular ou em um notebook pequeno para se comunicar
  Se fosse possível devolver a ele pelo menos algo próximo da “própria” voz com base em gravações antigas, ele adoraria
  Infelizmente, ainda não vi uma ferramenta que crie um modelo de voz que possa ser plugado no Android TTS ou no Windows que ele usa
- Jogo bastante Counter-Strike, e é bem engraçado quando as pessoas xingam o time adversário com a voz do Joe Biden
Qual é um bom lugar para continuar acompanhando essa área? Quero criar com ferramentas desse tipo, mas minha voz não é lá muito boa para esse uso, então tenho bastante interesse
Para deixar mais natural, acho que conversão de voz para voz seria melhor do que conversão de texto em fala. Usei um pouco ferramentas como RVC, mas sinto que deve haver muitos fluxos de trabalho excelentes que estou deixando passar no meio do ruído de IA
Tenho especial curiosidade sobre fluxos de trabalho interessantes e pessoas criando coisas divertidas com IA
- Com certeza o Twitter. Tudo é anunciado e discutido lá
Há bastante apocalipse e drama exagerado por aqui. Comparado aos métodos existentes de IA para clonagem de voz que já podiam ser usados publicamente há cerca de um ano, por que esta divulgação seria tão pior assim?
Estou realmente ansioso para que a clonagem de voz traga audiolivros lidos com a voz do autor
Claro que não vai ser tão bom quanto o próprio autor lendo, mas há algo na voz do autor que um narrador profissional não consegue entregar. Narradores têm uma pronúncia genérica e exagerada demais, e pessoalmente sinto menos conexão
- O que o autor acrescenta, mesmo que não seja um leitor treinado, é que a entonação corresponde exatamente a como ele pretendia que as frases do livro fossem ditas e entendidas
  A IA não vai conseguir fazer isso. Por melhor que fique, não consegue ler a mente do autor. O resultado será ainda mais genérico do que o de um leitor humano
- Na verdade, é justamente isso que me preocupa. Não entendo por que o livro deveria ser lido pelo autor
  Um dublador/narrador treinado faz isso muito melhor e também consegue ajustar a voz ao clima
  Se for uma autobiografia, tudo bem, mas nesses casos o autor geralmente já lê ele mesmo
- Se você acha narradores de audiolivros genéricos demais, tenho notícias ainda piores sobre uma narração por IA treinada com a voz do autor
- Quase nunca tenho vontade de que meus livros sejam lidos pelo autor. O autor é alguém que escreve bem, e um audiolivro não é simplesmente “ler” as palavras na página
  Talvez se for uma ferramenta como o Descript, em que o autor ajusta a pronúncia depois da narração; mas não quero a voz do autor
  Tenho interesse em treinar um modelo com a voz da Allyson Johnson para narrar os livros de Honor Harrington e regravar 1 ou 2 volumes dos spin-offs que usaram outro narrador. Esse narrador era horrível
  Também poderia servir para arrumar, na série Wheel of Time, o fato de os mesmos dois narradores aparecerem, mas mudarem a pronúncia de vários nomes e palavras de um livro para outro. “Moghedien” se destaca especialmente
  Eles pronunciam de pelo menos três formas: Mo-gid-e-on, Mo-ga-dean, Mog-a-din
- Seria bom se cada audiolivro tivesse opções de narrador. Há narradores de que gosto, e outros que simplesmente não consigo ouvir
  Além disso, há dezenas de milhares de livros que nunca sairão em formato de áudio se não usarem IA
Relacionado: https://github.com/topics/voice-clone
- Fico curioso se alguém sabe quais dessas coisas aqui realmente funcionam
  Até agora, toda vez que tentei, soava simplesmente como uma nova voz aleatória, que não era nem a minha voz-alvo nem a voz original
Vejo alguns notebooks Python, mas teria sido melhor se houvesse código de exemplo no README

OpenVoice: tecnologia de clonagem de voz instantânea

Recursos de clonagem de voz oferecidos pelo OpenVoice

Principais recursos do OpenVoice V1

Clonagem precisa de timbre

Controle flexível do estilo de fala

Clonagem de voz cross-language em zero-shot

O que mudou no OpenVoice V2

Uso real e alcance público

Uso, licença e projetos-base

Leituras relacionadas

1 comentários

Comentários no Hacker News