- Método versátil de clonagem instantânea de voz que permite replicar a voz de um locutor e gerar fala em vários idiomas usando apenas um curto clipe de áudio de referência
- Permite controle refinado sobre o estilo da voz e pode replicar não só emoção, entonação, ritmo, pausas e prosódia, mas também o timbre do locutor de referência
- Também possibilita clonagem de voz cruzada entre idiomas em zero-shot para línguas que não estão incluídas no conjunto de treinamento em larga escala de locutores
- Oferece desempenho superior com custo computacional dezenas de vezes menor do que APIs comercialmente disponíveis
- Pode replicar com precisão o timbre de referência e gerar fala em vários idiomas e sotaques
- Permite controle refinado sobre outros parâmetros de estilo, como ritmo, pausas e prosódia, além de emoção e entonação
1 comentários
Comentários do Hacker News
Um usuário do Hacker News compartilhou sua experiência e explicou como executar localmente a demonstração em Gradio do OpenVoice. Ele mencionou que, usando uma RTX 3090, gerou voz mais rápido que o XTTS2 e utilizou cerca de 1,5 GB de VRAM. A demo é limitada a 200 caracteres por conta do uso de recursos, mas funciona a uma velocidade 8 vezes superior ao tempo real. Ele também disse que, ao modificar a demo para testar textos mais longos, renderizou cerca de 1 minuto de áudio em aproximadamente 4 segundos. Avaliou que a clareza da voz é melhor que a do XTTS2, mas que ela soa um pouco estranha e robótica.
Outro usuário questionou os casos de uso éticos da tecnologia de clonagem de voz. Citou usos negativos como pornografia, roubo de identidade, personificação, substituição de dubladores, apropriação da voz de atores de voz e ocultar o uso de bots no suporte ao cliente. No entanto, argumentou que pode haver casos positivos, como fornecer a voz real para pessoas que perderam a capacidade de falar, mas que esse mercado talvez não seja suficiente para justificar o investimento.
Houve um usuário que compartilhou a informação de que o OpenVoice está em segundo pior lugar no leaderboard da competição de TTS do Hugging Face. Ele mencionou que alternativas como styletts2 e xtts2 estão muito melhor posicionadas que o OpenVoice.
Houve também um usuário que achou estranho o fato de imitar a voz de Elon Musk ser usado como prova de qualidade. Segundo ele, a voz do próprio Musk já tende a soar estranha e entrecortada, então seria possível imitar vozes melhores.
Um usuário informou que o Voicecraft publicou os pesos do seu modelo.
Um usuário comentou que não conseguiu obter localmente uma clonagem de voz com qualidade semelhante à dos clipes oferecidos no site. Ele supôs que pode estar fazendo algo errado.
Houve um usuário que confirmou no GitHub que é possível executar localmente e avaliou a qualidade como boa.
Um usuário explicou o processo de codificar a fala em uma representação semelhante a IPA e decodificar essa representação para o idioma de destino. Também mencionou o processo de extrair o “timbre” e removê-lo dessa representação semelhante a IPA antes de adicioná-lo novamente na camada de destino. Assim, seria possível ouvir a própria voz falando outro idioma com um timbre semelhante. O usuário se perguntou o quão parecido seria o resultado caso ele aprendesse chinês com fluência, e se seria necessário um “tradutor de timbre” para converter o timbre entre diferentes idiomas.
Houve um usuário perguntando se alguém conhece um modelo “inverso” capaz de identificar os falantes em múltiplas gravações para fazer diarização de locutores.
Um usuário avaliou que todas as ferramentas de clonagem de voz têm a característica de “vocal fry”, o que seria como um vale da estranheza por não conseguirem corresponder com precisão às partes mais sutis da voz. Ele explicou que essas ferramentas ainda não conseguem se afastar completamente daquela respiração parecida com a do Microsoft Sam.